想像、探索、批判を通じたLLMの自己改善に向けて
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing
April 18, 2024
著者: Ye Tian, Baolin Peng, Linfeng Song, Lifeng Jin, Dian Yu, Haitao Mi, Dong Yu
cs.AI
要旨
大規模言語モデル(LLM)はさまざまなタスクで印象的な能力を発揮するものの、複雑な推論や計画を必要とするシナリオでは依然として苦戦している。最近の研究では、LLMの推論能力を向上させるために、高度なプロンプト技術の提案や高品質なデータを用いたファインチューニングの必要性が指摘されている。しかし、これらのアプローチは本質的にデータの可用性と品質に制約される。このような状況において、自己修正と自己学習が有効な解決策として浮上しており、LLMが自身の出力を洗練し、自己評価による報酬から学習する戦略が採用されている。ただし、特に複雑な推論や計画タスクにおいて、LLMが自己修正を行う効果については疑問が残る。本論文では、LLMの自己改善を目的としたAlphaLLMを紹介する。AlphaLLMはモンテカルロ木探索(MCTS)をLLMと統合し、追加のアノテーションなしでLLMの能力を向上させる自己改善ループを確立する。AlphaGoの成功に着想を得たAlphaLLMは、MCTSとLLMを組み合わせた自己改善における特有の課題、すなわちデータ不足、言語タスクの広大な探索空間、言語タスクにおけるフィードバックの主観性に対処する。AlphaLLMは、プロンプト合成コンポーネント、言語タスクに特化した効率的なMCTSアプローチ、および正確なフィードバックを提供する3つの批評モデルで構成されている。数学的推論タスクにおける実験結果は、AlphaLLMが追加のアノテーションなしでLLMの性能を大幅に向上させることを示しており、LLMの自己改善の可能性を明らかにしている。
English
Despite the impressive capabilities of Large Language Models (LLMs) on
various tasks, they still struggle with scenarios that involves complex
reasoning and planning. Recent work proposed advanced prompting techniques and
the necessity of fine-tuning with high-quality data to augment LLMs' reasoning
abilities. However, these approaches are inherently constrained by data
availability and quality. In light of this, self-correction and self-learning
emerge as viable solutions, employing strategies that allow LLMs to refine
their outputs and learn from self-assessed rewards. Yet, the efficacy of LLMs
in self-refining its response, particularly in complex reasoning and planning
task, remains dubious. In this paper, we introduce AlphaLLM for the
self-improvements of LLMs, which integrates Monte Carlo Tree Search (MCTS) with
LLMs to establish a self-improving loop, thereby enhancing the capabilities of
LLMs without additional annotations. Drawing inspiration from the success of
AlphaGo, AlphaLLM addresses the unique challenges of combining MCTS with LLM
for self-improvement, including data scarcity, the vastness search spaces of
language tasks, and the subjective nature of feedback in language tasks.
AlphaLLM is comprised of prompt synthesis component, an efficient MCTS approach
tailored for language tasks, and a trio of critic models for precise feedback.
Our experimental results in mathematical reasoning tasks demonstrate that
AlphaLLM significantly enhances the performance of LLMs without additional
annotations, showing the potential for self-improvement in LLMs.Summary
AI-Generated Summary