大規模言語モデルを用いたKレベル推論
K-Level Reasoning with Large Language Models
February 2, 2024
著者: Yadong Zhang, Shaoguang Mao, Tao Ge, Xun Wang, Yan Xia, Man Lan, Furu Wei
cs.AI
要旨
大規模言語モデル(LLMs)は複雑な推論タスクにおいてその能力を発揮してきたが、ビジネス戦略や株式市場分析のような動的でインタラクティブかつ競争的なシナリオにおける性能はまだ十分に検証されていない。このギャップを埋めるため、我々は急速に変化する環境下での意思決定におけるLLMsの動的推論能力を正式に探求する。本論文では、現実世界の動的意思決定の複雑さを反映した2つのゲーム理論ベースのパイロット課題を導入する。これらの課題は明確に定義されており、LLMsの動的推論能力を明確で制御可能かつ精密に評価することが可能である。広範な実験を通じて、既存の推論手法はkレベル思考を必要とする動的設定において弱みを見せることがわかった。これは従来の研究が取り組んでこなかった重要な概念である。この問題に対処するため、我々は「Kレベル推論」という新しいLLMs向け推論手法を提案する。このアプローチは、競合相手の視点を採用し、利用可能な過去の情報に基づいてkレベル思考を再帰的に適用することで、競合相手の次の動きの予測精度を大幅に向上させ、より戦略的な意思決定を可能にする。本研究は、動的推論の評価のための堅牢な定量的ベンチマークを確立するだけでなく、LLMsの動的コンテキストにおける能力を著しく向上させるものである。
English
While Large Language Models (LLMs) have demonstrated their proficiency in
complex reasoning tasks, their performance in dynamic, interactive, and
competitive scenarios - such as business strategy and stock market analysis -
remains underexplored. To bridge this gap, we formally explore the dynamic
reasoning capabilities of LLMs for decision-making in rapidly evolving
environments. We introduce two game theory-based pilot challenges that mirror
the complexities of real-world dynamic decision-making. These challenges are
well-defined, enabling clear, controllable, and precise evaluation of LLMs'
dynamic reasoning abilities. Through extensive experiments, we find that
existing reasoning methods tend to falter in dynamic settings that require
k-level thinking - a key concept not tackled by previous works. To address
this, we propose a novel reasoning approach for LLMs, named "K-Level
Reasoning". This approach adopts the perspective of rivals to recursively
employ k-level thinking based on available historical information, which
significantly improves the prediction accuracy of rivals' subsequent moves and
informs more strategic decision-making. This research not only sets a robust
quantitative benchmark for the assessment of dynamic reasoning but also
markedly enhances the proficiency of LLMs in dynamic contexts.