ChatPaper.aiChatPaper

長文CoT教師ありファインチューニングにおいては、データ反復がデータ拡張に勝る

Data Repetition Beats Data Scaling in Long-CoT Supervised Fine-Tuning

February 11, 2026
著者: Dawid J. Kopiczko, Sagar Vaze, Tijmen Blankevoort, Yuki M. Asano
cs.AI

要旨

思考連鎖データを用いた教師ありファインチューニング(SFT)は、推論能力を持つ言語モデルにとって必須の学習後工程である。標準的な機械学習の直感では、より多くのユニークな訓練サンプルで学習することが、より良い汎化性能をもたらすとされる。しかし直感に反して、本論文ではSFTが反復学習から恩恵を受けることを示す:固定された更新バジェットの下では、より小さなデータセットで多くのエポック学習することが、より大きなデータセットでの単一エポック学習を上回るのである。AIME'24/25およびGPQAベンチマークにおいて、400サンプルを128エポック学習したOlmo3-7Bモデルは、51200サンプルを1エポック学習した同等条件のモデルを、追加の破滅的忘れなしに、12~26パーセントポイント上回った。我々は、訓練トークン正解率が、反復学習が飽和した時点を確実に示すシグナルとなることを発見した。追加エポックによる改善効果は、完全な記憶(完全暗記)に達すると頭打ちとなり、このパターンは全ての設定で一貫していた。これらの知見は、推論SFTに対する実用的なアプローチを提供する。つまり、トークン正解率を停止基準としてエポック数をスケールさせることで、コストのかかる無作為的なデータスケーリングを代替できるのである。我々は、完全な記憶が改善された汎化性能と一致するという「反復学習の利点」を、大規模言語モデルの学習ダイナミクスを理解する上での新たな未解決問題としてコミュニティに提起する。
English
Supervised fine-tuning (SFT) on chain-of-thought data is an essential post-training step for reasoning language models. Standard machine learning intuition suggests that training with more unique training samples yields better generalization. Counterintuitively, we show that SFT benefits from repetition: under a fixed update budget, training for more epochs on smaller datasets outperforms single-epoch training on larger datasets. On AIME'24/25 and GPQA benchmarks, Olmo3-7B trained for 128 epochs on 400 samples outperforms the equivalent 1 epoch on 51200 samples by 12-26 percentage points, with no additional catastrophic forgetting. We find that training token accuracy reliably signals when repetition has saturated; improvements from additional epochs plateau at full memorization, a pattern consistent across all settings. These findings provide a practical approach for reasoning SFT, where scaling epochs with token accuracy as a stopping criterion can replace expensive undirected data scaling. We pose the repetition advantage, where full memorization coincides with improved generalization, as a new open problem for the community in understanding the training dynamics of large language models.
PDF113February 13, 2026