ChatPaper.aiChatPaper

自信こそがすべて:言語モデルのFew-Shot強化学習によるファインチューニング

Confidence Is All You Need: Few-Shot RL Fine-Tuning of Language Models

June 5, 2025
著者: Pengyi Li, Matvey Skripkin, Alexander Zubrey, Andrey Kuznetsov, Ivan Oseledets
cs.AI

要旨

大規模言語モデル(LLM)は推論において優れた能力を発揮するが、その振る舞いをタスク目標に適合させるためには、学習後の調整が依然として重要である。既存の強化学習(RL)手法は、高コストな人間によるアノテーションや外部の報酬モデルに依存することが多い。本論文では、モデル自身の自信を報酬信号として利用する「自己信頼による強化学習(Reinforcement Learning via Self-Confidence, RLSC)」を提案する。これにより、ラベル、選好モデル、または報酬設計の必要性が排除される。Qwen2.5-Math-7Bに対して、1問あたり16サンプル、10または20の学習ステップのみで適用した結果、RLSCはAIME2024で+13.4%、MATH500で+21.2%、Minerva Mathで+21.7%、Olympiadbenchで+20.8%、AMC23で+9.7%の精度向上を達成した。RLSCは、推論モデルに対するシンプルでスケーラブルな学習後調整手法を提供し、わずかなサンプルとラベルなしの監督のみを必要とする。
English
Large language models (LLMs) excel at reasoning, yet post-training remains critical for aligning their behavior with task goals. Existing reinforcement learning (RL) methods often depend on costly human annotations or external reward models. We propose Reinforcement Learning via Self-Confidence (RLSC), which uses the model's own confidence as reward signals-eliminating the need for labels, preference models, or reward engineering. Applied to Qwen2.5-Math-7B with only 16 samples per question and 10 or 20 training steps, RLSC improves accuracy by +13.4% on AIME2024, +21.2% on MATH500, +21.7% on Minerva Math, +20.8% on Olympiadbench, and +9.7% on AMC23. RLSC provides a simple, scalable post-training method for inference models, requiring only a small number of samples and unlabelled supervision.
PDF10419June 12, 2025