LLM改良のART:質問、改良、そして信頼
The ART of LLM Refinement: Ask, Refine, and Trust
November 14, 2023
著者: Kumar Shridhar, Koustuv Sinha, Andrew Cohen, Tianlu Wang, Ping Yu, Ram Pasunuru, Mrinmaya Sachan, Jason Weston, Asli Celikyilmaz
cs.AI
要旨
近年、大規模言語モデル(LLM)は驚くべき生成能力を示してきたが、自らの生成物の品質を判断できるだろうか?自己改善(self-refinement)と呼ばれる一般的な概念は、LLMが求められれば自らの生成物の誤りを検出し修正できると仮定している。しかし、最近の実証研究はこれとは逆の方向を示しており、推論が関わる場合、LLMは誤りを正確に特定するのに苦労することが多いと示唆している。この問題に対処するため、我々はART(Ask, Refine, and Trust)という推論と改善を組み合わせた目的関数を提案する。ARTは、LLMが出力を改善すべきかどうかを判断するために必要な質問を投げかけ、改善結果と初期予測をランク付けすることで、その改善を承認するか信頼を保留するかを決定する。数学的文章題(GSM8K)と質問応答(StrategyQA)という2つの多段階推論タスクにおいて、ARTは自己改善ベースラインを+5ポイント上回る性能向上を達成し、意思決定者としてはるかに小さいモデルを使用している。また、大規模モデルのファインチューニングに代わるコスト効率の良い選択肢として、小規模モデルを使用して改善決定を行う利点も実証している。
English
In recent years, Large Language Models (LLMs) have demonstrated remarkable
generative abilities, but can they judge the quality of their own generations?
A popular concept, referred to as self-refinement, postulates that LLMs can
detect and correct the errors in their generations when asked to do so.
However, recent empirical evidence points in the opposite direction, suggesting
that LLMs often struggle to accurately identify errors when reasoning is
involved. To address this, we propose a reasoning with refinement objective
called ART: Ask, Refine, and Trust, which asks necessary questions to decide
when an LLM should refine its output, and either affirm or withhold trust in
its refinement by ranking the refinement and the initial prediction. On two
multistep reasoning tasks of mathematical word problems (GSM8K) and question
answering (StrategyQA), ART achieves a performance gain of +5 points over
self-refinement baselines, while using a much smaller model as the decision
maker. We also demonstrate the benefit of using smaller models to make
refinement decisions as a cost-effective alternative to fine-tuning a larger
model.