大規模言語モデルは長い文脈推論において自己改善が可能です。Large Language Models Can Self-Improve in Long-context Reasoning
大規模言語モデル(LLMs)は、長い文脈の処理において著しい進歩を達成していますが、依然として長い文脈の推論には苦労しています。既存のアプローチは、通常、人間の専門家やGPT-4のような高度なモデルからの注釈に依存する合成データを使用してLLMsを微調整することに関与しており、これによりさらなる進歩が制限されています。この問題に対処するために、私たちはLLMsが長い文脈の推論において自己改善する可能性を調査し、この目的に特化したアプローチである「\ours」を提案します。このアプローチは直感的です:各質問に対して複数の出力をサンプリングし、それらを最小ベイズリスクでスコア付けし、その後、これらの出力に基づいて教師付き微調整または選好最適化を適用します。いくつかの主要なLLMsでの包括的な実験は、\oursの有効性を示し、Llama-3.1-8B-Instructにおいて4.2ポイントの絶対的な改善を達成しています。さらに、\oursは、人間の専門家や高度なモデルによって生成されたデータに依存する従来のアプローチと比較して、優れたパフォーマンスを達成しています。この研究がLLMsの持続的な進歩に不可欠な長い文脈のシナリオにおける自己改善技術の新たな展開を切り開くことが期待されます。