想像、探索、批判を通じたLLMの自己改善に向けてToward Self-Improvement of LLMs via Imagination, Searching, and
Criticizing
大規模言語モデル(LLM)はさまざまなタスクで印象的な能力を発揮するものの、複雑な推論や計画を必要とするシナリオでは依然として苦戦している。最近の研究では、LLMの推論能力を向上させるために、高度なプロンプト技術の提案や高品質なデータを用いたファインチューニングの必要性が指摘されている。しかし、これらのアプローチは本質的にデータの可用性と品質に制約される。このような状況において、自己修正と自己学習が有効な解決策として浮上しており、LLMが自身の出力を洗練し、自己評価による報酬から学習する戦略が採用されている。ただし、特に複雑な推論や計画タスクにおいて、LLMが自己修正を行う効果については疑問が残る。本論文では、LLMの自己改善を目的としたAlphaLLMを紹介する。AlphaLLMはモンテカルロ木探索(MCTS)をLLMと統合し、追加のアノテーションなしでLLMの能力を向上させる自己改善ループを確立する。AlphaGoの成功に着想を得たAlphaLLMは、MCTSとLLMを組み合わせた自己改善における特有の課題、すなわちデータ不足、言語タスクの広大な探索空間、言語タスクにおけるフィードバックの主観性に対処する。AlphaLLMは、プロンプト合成コンポーネント、言語タスクに特化した効率的なMCTSアプローチ、および正確なフィードバックを提供する3つの批評モデルで構成されている。数学的推論タスクにおける実験結果は、AlphaLLMが追加のアノテーションなしでLLMの性能を大幅に向上させることを示しており、LLMの自己改善の可能性を明らかにしている。