SkyLadder: コンテキストウィンドウスケジューリングによるより優れた高速な事前学習
SkyLadder: Better and Faster Pretraining via Context Window Scheduling
March 19, 2025
著者: Tongyao Zhu, Qian Liu, Haonan Wang, Shiqi Chen, Xiangming Gu, Tianyu Pang, Min-Yen Kan
cs.AI
要旨
最近のLLM事前学習の進展では、より長いシーケンスを処理するためにコンテキストウィンドウが拡大し続けています。しかし、私たちのパイロットスタディでは、固定されたトークン予算の下で、短いコンテキストウィンドウで事前学習されたモデルが、長いコンテキストのモデルを一貫して上回ることが明らかになりました。この発見は、長いコンテキストの能力と事前学習の効率性をより良くバランスさせるための最適なコンテキストウィンドウスケジューリング戦略を探求する動機となりました。この目的のために、私たちはSkyLadderを提案します。これは、短いコンテキストウィンドウから長いコンテキストウィンドウへの移行を実装するシンプルで効果的なアプローチです。SkyLadderは、標準ベンチマークでの強力な性能を維持しつつ、長いコンテキストタスクではベースラインを上回るか同等の結果を達成します。広範な実験を通じて、1Bパラメータのモデル(最大32Kコンテキスト)と3Bパラメータのモデル(8Kコンテキスト)を100Bトークンで事前学習し、SkyLadderが一般的なベンチマークで最大3.7%の一貫した向上をもたらし、ベースラインと比較して最大22%の高速なトレーニング速度を達成することを実証しました。コードはhttps://github.com/sail-sg/SkyLadderにあります。
English
Recent advancements in LLM pretraining have featured ever-expanding context
windows to process longer sequences. However, our pilot study reveals that
models pretrained with shorter context windows consistently outperform their
long-context counterparts under a fixed token budget. This finding motivates us
to explore an optimal context window scheduling strategy to better balance
long-context capability with pretraining efficiency. To this end, we propose
SkyLadder, a simple yet effective approach that implements a short-to-long
context window transition. SkyLadder preserves strong standard benchmark
performance, while matching or exceeding baseline results on long context
tasks. Through extensive experiments, we pre-train 1B-parameter models (up to
32K context) and 3B-parameter models (8K context) on 100B tokens, demonstrating
that SkyLadder yields consistent gains of up to 3.7% on common benchmarks,
while achieving up to 22% faster training speeds compared to baselines. The
code is at https://github.com/sail-sg/SkyLadder.Summary
AI-Generated Summary