대형 언어 모델을 활용한 K-수준 추론
K-Level Reasoning with Large Language Models
February 2, 2024
저자: Yadong Zhang, Shaoguang Mao, Tao Ge, Xun Wang, Yan Xia, Man Lan, Furu Wei
cs.AI
초록
대형 언어 모델(LLMs)은 복잡한 추론 과제에서 뛰어난 능력을 보여왔지만, 비즈니스 전략 및 주식 시장 분석과 같은 동적, 상호작용적, 경쟁적 시나리오에서의 성과는 아직 충분히 탐구되지 않았다. 이러한 격차를 해소하기 위해, 본 연구는 급변하는 환경에서의 의사결정을 위한 LLMs의 동적 추론 능력을 체계적으로 탐구한다. 우리는 현실 세계의 동적 의사결정의 복잡성을 반영한 두 가지 게임 이론 기반 파일럿 과제를 소개한다. 이러한 과제는 명확하고 통제 가능하며 정밀한 평가를 가능하게 하여 LLMs의 동적 추론 능력을 평가할 수 있도록 설계되었다. 광범위한 실험을 통해, 기존의 추론 방법들은 k-수준 사고를 요구하는 동적 환경에서 취약한 경향이 있음을 발견했으며, 이는 기존 연구에서 다루지 않았던 핵심 개념이다. 이를 해결하기 위해, 우리는 "K-수준 추론"이라는 새로운 LLMs 추론 접근법을 제안한다. 이 접근법은 경쟁자의 관점을 채택하여 사용 가능한 역사적 정보를 기반으로 k-수준 사고를 재귀적으로 적용함으로써, 경쟁자의 후속 행동 예측 정확도를 크게 향상시키고 더 전략적인 의사결정을 가능하게 한다. 본 연구는 동적 추론 평가를 위한 강력한 정량적 벤치마크를 설정할 뿐만 아니라, 동적 맥락에서 LLMs의 숙련도를 현저히 향상시킨다.
English
While Large Language Models (LLMs) have demonstrated their proficiency in
complex reasoning tasks, their performance in dynamic, interactive, and
competitive scenarios - such as business strategy and stock market analysis -
remains underexplored. To bridge this gap, we formally explore the dynamic
reasoning capabilities of LLMs for decision-making in rapidly evolving
environments. We introduce two game theory-based pilot challenges that mirror
the complexities of real-world dynamic decision-making. These challenges are
well-defined, enabling clear, controllable, and precise evaluation of LLMs'
dynamic reasoning abilities. Through extensive experiments, we find that
existing reasoning methods tend to falter in dynamic settings that require
k-level thinking - a key concept not tackled by previous works. To address
this, we propose a novel reasoning approach for LLMs, named "K-Level
Reasoning". This approach adopts the perspective of rivals to recursively
employ k-level thinking based on available historical information, which
significantly improves the prediction accuracy of rivals' subsequent moves and
informs more strategic decision-making. This research not only sets a robust
quantitative benchmark for the assessment of dynamic reasoning but also
markedly enhances the proficiency of LLMs in dynamic contexts.