ChatPaper.aiChatPaper

害から益へ:推論におけるインコンテキストデモを推論LMの資産に変える

From Harm to Help: Turning Reasoning In-Context Demos into Assets for Reasoning LMs

September 27, 2025
著者: Haonan Wang, Weida Liang, Zihang Fu, Nie Zheng, Yifan Zhang, Yao Tong, Tongyao Zhu, Hao Jiang, Chuang Li, Jiaying Wu, Kenji Kawaguchi
cs.AI

要旨

最近の推論LLM(RLM)、特に検証ベースの強化学習で訓練されたモデルは、直接回答と比較してfew-shot CoT(Chain-of-Thought)で性能が低下することが多い。このパラドックスを、DeepSeek-R1の高品質な推論トレースをデモンストレーションとして用いて再検証したところ、最適なデモンストレーションであっても、例を追加することで一貫して精度が低下することが明らかになった。詳細な分析により、この低下の背後にある2つのメカニズムが明らかになった:(i) 意味的誤誘導、すなわち高いテキスト的類似性により、モデルがターゲットを例と同じものと見なし、中間ステップを逐語的にコピーしてしまうこと;(ii) 戦略転移の失敗、すなわちモデルが有用な推論戦略を抽出し、ターゲット質問に適用することが困難であること。これらの知見を基に、Insight-to-Solve(I2S)を導入した。これは、デモンストレーションを明示的で再利用可能な洞察に変換し、ターゲット固有の推論トレースを導出する逐次的なテストタイム手順である。オプションとして、推論は一貫性と正確性のために自己精緻化される(I2S+)。多様なベンチマークでの広範な実験により、I2SとI2S+が、オープンソースおよびクローズドソースのモデルにおいて、直接回答やテストタイムスケーリングのベースラインを一貫して上回ることが示された。GPTモデルにおいても、本手法は有効であり、AIME'25ではGPT-4.1が+14.0%、o1-miniはAIMEで+2.7%、GPQAで+1.7%向上し、インコンテキストデモンストレーションが洞察-精緻化-解決フレームワークを通じて効果的に活用できることが示された。
English
Recent reasoning LLMs (RLMs), especially those trained with verifier-based reinforcement learning, often perform worse with few-shot CoT than with direct answering. We revisit this paradox using high-quality reasoning traces from DeepSeek-R1 as demonstrations and find that adding more exemplars consistently degrades accuracy, even when demonstrations are optimal. A detailed analysis reveals two mechanisms behind this decline: (i) semantic misguidance, where high textual similarity leads the model to treat the target as the same as the exemplar and to copy intermediate steps verbatim; and (ii) strategy transfer failure, where the model struggles to extract useful reasoning strategies and apply them to target questions. Guided by these, we introduce Insight-to-Solve (I2S), a sequential test-time procedure that turns demonstrations into explicit, reusable insights and derives a target-specific reasoning trace; optionally, the reasoning is self-refined for coherence and correctness (I2S+). Extensive experiments on diverse benchmarks show that I2S and I2S+ consistently outperform both direct answering and test-time scaling baselines across open- and closed-source models. Even for GPT models, our method helps: on AIME'25, GPT-4.1 rises by +14.0%, and o1-mini improves by +2.7% on AIME and +1.7% on GPQA, indicating that in-context demonstrations can be harnessed effectively via insight-refine-solve framework.
PDF82September 30, 2025