ChatPaper.aiChatPaper

コンセンサスゲーム:均衡探索による言語モデル生成

The Consensus Game: Language Model Generation via Equilibrium Search

October 13, 2023
著者: Athul Paul Jacob, Yikang Shen, Gabriele Farina, Jacob Andreas
cs.AI

要旨

質問応答やその他のテキスト生成タスクに適用する際、言語モデル(LM)は生成的(出力分布から回答をサンプリングする)または識別的(候補となる出力セットをスコアリングまたはランク付けする)に問い合わせることができます。これらの手順は、時に非常に異なる予測を生み出すことがあります。相互に互換性のないスコアリング手順をどのように調和させ、一貫したLMの予測を得るのでしょうか?私たちは、新しい、トレーニング不要なゲーム理論的な手順を言語モデルのデコードに導入します。私たちのアプローチは、言語モデルのデコードを、正則化された不完全情報逐次シグナリングゲームとして定式化します。これをCONSENSUS GAMEと呼び、GENERATORが抽象的な正しさのパラメータを自然言語文を用いてDISCRIMINATORに伝達しようとするゲームです。私たちは、このゲームの近似均衡を見つけるための計算手順を開発し、EQUILIBRIUM-RANKINGと呼ぶデコードアルゴリズムを生み出しました。多数のタスク(読解、常識推論、数学的問題解決、対話を含む)に適用した結果、EQUILIBRIUM-RANKINGは既存のLMデコード手順を一貫して、時には大幅に上回る性能を示しました。複数のベンチマークにおいて、LLaMA-7BにEQUILIBRIUM-RANKINGを適用すると、はるかに大規模なLLaMA-65BやPaLM-540Bモデルを上回る結果が観察されました。これらの結果は、LMの真実性と一貫性という根本的な課題にゲーム理論的ツールが有効であることを示しています。
English
When applied to question answering and other text generation tasks, language models (LMs) may be queried generatively (by sampling answers from their output distribution) or discriminatively (by using them to score or rank a set of candidate outputs). These procedures sometimes yield very different predictions. How do we reconcile mutually incompatible scoring procedures to obtain coherent LM predictions? We introduce a new, a training-free, game-theoretic procedure for language model decoding. Our approach casts language model decoding as a regularized imperfect-information sequential signaling game - which we term the CONSENSUS GAME - in which a GENERATOR seeks to communicate an abstract correctness parameter using natural language sentences to a DISCRIMINATOR. We develop computational procedures for finding approximate equilibria of this game, resulting in a decoding algorithm we call EQUILIBRIUM-RANKING. Applied to a large number of tasks (including reading comprehension, commonsense reasoning, mathematical problem-solving, and dialog), EQUILIBRIUM-RANKING consistently, and sometimes substantially, improves performance over existing LM decoding procedures - on multiple benchmarks, we observe that applying EQUILIBRIUM-RANKING to LLaMA-7B outperforms the much larger LLaMA-65B and PaLM-540B models. These results highlight the promise of game-theoretic tools for addressing fundamental challenges of truthfulness and consistency in LMs.
PDF143December 15, 2024