SmolTulu:学習率とバッチサイズの比率が高いと、SLMにおいてより良い推論が可能になる可能性があります。
SmolTulu: Higher Learning Rate to Batch Size Ratios Can Lead to Better Reasoning in SLMs
December 11, 2024
著者: Sultan Alrashed
cs.AI
要旨
本報告で言及されているSmolTulu-DPO-1130として参照されるSmolTulu-1.7b-Instructを提案します。これは、AllenAIのTulu 3の事後トレーニングパイプラインを適応させ、HuggingfaceのSmolLM2-1.7Bベースモデルを強化するように調整されたインストラクションチューンされた言語モデルです。1億3500万のパラメータモデルを使用した包括的な経験的分析を通じて、学習率とバッチサイズの関係がタスクに依存してモデルのパフォーマンスに大きく影響することを実証します。我々の調査結果は、ARCやGSM8Kなどの推論タスクが、学習率とバッチサイズの比率が高いほど恩恵を受ける一方、HellaSwagやIFEvalなどのパターン認識タスクは、より低い比率で最適なパフォーマンスを示すことを明らかにします。これらの知見は、SmolTuluの開発に活かされ、IFEvalで67.7%(Delta11%)、GSM8Kで数学的推論に51.6%(Delta3.4%)のスコアを獲得し、別バージョンではARCで57.1%(Delta5.4%)のスコアを達成します。我々は、モデル、トレーニングレシピ、および削減研究を公開し、効率的なモデル調整に関するさらなる研究を促進することで、最小から最大の言語モデル間の能力差を埋めるのに最適化ダイナミクスの慎重な適応が役立つことを示しています。
English
We present SmolTulu-1.7b-Instruct, referenced in this report as
SmolTulu-DPO-1130, an instruction-tuned language model that adapts AllenAI's
Tulu 3 post-training pipeline to enhance Huggingface's SmolLM2-1.7B base model.
Through comprehensive empirical analysis using a 135M parameter model, we
demonstrate that the relationship between learning rate and batch size
significantly impacts model performance in a task-dependent manner. Our
findings reveal a clear split: reasoning tasks like ARC and GSM8K benefit from
higher learning rate to batch size ratios, while pattern recognition tasks such
as HellaSwag and IFEval show optimal performance with lower ratios. These
insights informed the development of SmolTulu, which achieves state-of-the-art
performance among sub-2B parameter models on instruction following, scoring
67.7% on IFEval (Delta11%), and mathematical reasoning with 51.6% on GSM8K
(Delta3.4%), with an alternate version achieving scoring 57.1% on ARC
(Delta5.4%). We release our model, training recipes, and ablation studies to
facilitate further research in efficient model alignment, demonstrating that
careful adaptation of optimization dynamics can help bridge the capability gap
between small and large language models.Summary
AI-Generated Summary