ChatPaper.aiChatPaper

데이터 스케일링보다 데이터 반복이 긴 CoT 지도 미세 조정에서 더 효과적이다

Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning

February 11, 2026
저자: Dawid J. Kopiczko, Sagar Vaze, Tijmen Blankevoort, Yuki M. Asano
cs.AI

초록

사고 연쇄(chain-of-thought) 데이터에 대한 지도 미세 조정(SFT)은 추론 언어 모델에 있어 필수적인 사후 훈련 단계입니다. 표준 기계 학습의 직관에 따르면 더 많은 고유 훈련 샘플로 학습할수록 일반화 성능이 향상된다고 알려져 있습니다. 그러나 반직관적으로, 우리는 SFT가 반복 학습을 통해 이점을 얻음을 보여줍니다: 고정된 업데이트 예산 하에서, 더 작은 데이터셋으로 많은 에포크(epoch) 동안 학습하는 것이 더 큰 데이터셋으로 1 에포크만 학습하는 것보다 성능이 뛰어납니다. AIME'24/25 및 GPQA 벤치마크에서, 400개 샘플을 128 에포크 동안 학습한 Olmo3-7B 모델은 51,200개 샘플을 1 에포크 학습한 동등 조건 대비 12-26% 포인트 더 높은 성능을 보였으며, 추가적인 파국적 망각(catastrophic forgetting)도 발생하지 않았습니다. 우리는 훈련 토큰 정확도(training token accuracy)가 반복 학습의 포화 시점을 신뢰롭게 나타냄을 발견했습니다. 추가 에포크에 의한 성능 향상은 완전 암기(full memorization) 단계에 이르면 정체되는 패턴을 보였으며, 이는 모든 설정에서 일관되었습니다. 이러한 발견들은 추론 SFT를 위한 실용적인 접근법을 제시합니다. 즉, 비용이 많이 드는 무분별한 데이터 확장을 대체하여, 토큰 정확도를 중단 기준(stopping criterion)으로 삼아 에포크 수를 조정할 수 있습니다. 우리는 완전 암기가 향상된 일반화와 동시에 발생하는 이러한 반복 학습의 이점(repetition advantage)을 대규모 언어 모델의 훈련 역동성(trainig dynamics)을 이해하는 데 있어 커뮤니티가 풀어야 할 새로운 공개 문제로 제기합니다.
English
Supervised fine-tuning (SFT) on chain-of-thought data is an essential post-training step for reasoning language models. Standard machine learning intuition suggests that training with more unique training samples yields better generalization. Counterintuitively, we show that SFT benefits from repetition: under a fixed update budget, training for more epochs on smaller datasets outperforms single-epoch training on larger datasets. On AIME'24/25 and GPQA benchmarks, Olmo3-7B trained for 128 epochs on 400 samples outperforms the equivalent 1 epoch on 51200 samples by 12-26 percentage points, with no additional catastrophic forgetting. We find that training token accuracy reliably signals when repetition has saturated; improvements from additional epochs plateau at full memorization, a pattern consistent across all settings. These findings provide a practical approach for reasoning SFT, where scaling epochs with token accuracy as a stopping criterion can replace expensive undirected data scaling. We pose the repetition advantage, where full memorization coincides with improved generalization, as a new open problem for the community in understanding the training dynamics of large language models.
PDF113February 13, 2026