Writing
Posts, lecture notes, and technical writing.
Paper Review
-
[논문 리뷰] Which Reasoning Trajectories Teach Students to Reason Better? A Simple Metric of Informative Alignment
May 13, 2026
Reasoning distillation에서 student가 실제로 잘 배울 수 있는 teacher trajectory를 고르는 metric, Rank-Surprisal Ratio (RSR) 논문 리뷰
Open Source
-
transformers contributor가 되어 본 3편의 PR 회고
Apr 30, 2026
Reflections on three merged PRs (#44436, #45486, #45722) over two months of contributing to transformers.
Notes
-
이제 여기에 글을 씁니다
Apr 30, 2026
티스토리에서 jw9603.github.io로 글 쓰는 곳을 옮깁니다.
Stanford CS336 | Spring 2026
Language Modeling from Scratch
-
CS336 Lecture 01: Overview and Tokenization
May 2, 2026
Stanford CS336 Lecture 01 정리 — 강의 motivation, 현재 LM 생태계, open model, executable lecture, character/byte/word/BPE tokenizer 비교
-
CS336 Lecture 02: Resource Accounting
May 3, 2026
Stanford CS336 Lecture 02 정리 — FLOPs·메모리 회계, 70B/15T 토큰 학습 시간 추정, AdamW로 H100 8장에서 학습 가능한 최대 모델 크기, tensor 기초
-
CS336 Lecture 03: LM Architecture and Hyperparameters
May 6, 2026
Stanford CS336 Lecture 03 정리 — Pre-vs-post norm, LayerNorm vs RMSNorm, activation·GLU 변형, 그리고 transformer architecture 결정의 hyperparameter 직관
-
CS336 Lecture 04: Attention Alternatives and Mixtures of Experts
May 6, 2026
Stanford CS336 Lecture 04 정리 — attention 비용을 줄이는 linear attention·Mamba-2·gated delta net 계열, 그리고 파라미터를 늘리되 계산량은 제한하는 MoE 구조
-
CS336 Lecture 05: GPUs, CUDA, Performance, FlashAttention
Jun 10, 2026
Stanford CS336 Lecture 05 정리 — GPU 아키텍처와 CUDA 기초, performance 분석 (roofline, memory hierarchy), FlashAttention I/O-aware kernel
-
CS336 Lecture 09: Scaling Laws — Basics
May 27, 2026
Stanford CS336 Lecture 09 정리 — scaling law를 경험식이 아니라 모델 설계의 예측 도구로 활용하기 (sample complexity·rate, 초기 data scaling 역사, Chinchilla, IsoFLOPs)