대규모 언어 모델은 컨텍스트 내에서 탐색할 수 있는가?
Can large language models explore in-context?
March 22, 2024
저자: Akshay Krishnamurthy, Keegan Harris, Dylan J. Foster, Cyril Zhang, Aleksandrs Slivkins
cs.AI
초록
우리는 현대의 대형 언어 모델(LLM)이 강화 학습과 의사 결정에서 핵심 능력인 탐색(exploration)을 어느 정도 수행할 수 있는지 조사했다. 본 연구는 기존 LLM의 기본 성능에 초점을 맞추며, 별도의 학습 개입 없이 진행되었다. 우리는 LLM을 단순한 다중 슬롯 머신(multi-armed bandit) 환경에서 에이전트로 배치하고, 환경 설명과 상호작용 이력을 모두 컨텍스트 내(즉, LLM 프롬프트 내)에서 명시했다. GPT-3.5, GPT-4, Llama2를 다양한 프롬프트 설계와 함께 실험한 결과, 상당한 개입 없이는 모델들이 견고한 탐색 행동을 보이지 않음을 발견했다: i) 모든 실험 중에서 만족스러운 탐색 행동을 보인 구성은 GPT-4에 사고 연쇄(chain-of-thought) 추론과 외부에서 요약된 상호작용 이력(충분 통계량으로 제시)을 적용한 경우뿐이었다; ii) 사고 연쇄 추론을 사용했지만 요약되지 않은 이력을 포함한 다른 모든 구성에서는 견고한 탐색 행동이 나타나지 않았다. 이러한 결과는 긍정적으로 해석될 수 있지만, 더 복잡한 환경에서는 불가능할 수 있는 외부 요약이 LLM 에이전트로부터 바람직한 행동을 이끌어내는 데 중요함을 시사한다. 우리는 복잡한 환경에서 LLM 기반 의사 결정 에이전트를 강화하기 위해서는 미세 조정(fine-tuning)이나 데이터셋 큐레이션과 같은 비단순한 알고리즘적 개입이 필요할 수 있다고 결론지었다.
English
We investigate the extent to which contemporary Large Language Models (LLMs)
can engage in exploration, a core capability in reinforcement learning and
decision making. We focus on native performance of existing LLMs, without
training interventions. We deploy LLMs as agents in simple multi-armed bandit
environments, specifying the environment description and interaction history
entirely in-context, i.e., within the LLM prompt. We experiment with GPT-3.5,
GPT-4, and Llama2, using a variety of prompt designs, and find that the models
do not robustly engage in exploration without substantial interventions: i)
Across all of our experiments, only one configuration resulted in satisfactory
exploratory behavior: GPT-4 with chain-of-thought reasoning and an externally
summarized interaction history, presented as sufficient statistics; ii) All
other configurations did not result in robust exploratory behavior, including
those with chain-of-thought reasoning but unsummarized history. Although these
findings can be interpreted positively, they suggest that external
summarization -- which may not be possible in more complex settings -- is
important for obtaining desirable behavior from LLM agents. We conclude that
non-trivial algorithmic interventions, such as fine-tuning or dataset curation,
may be required to empower LLM-based decision making agents in complex
settings.Summary
AI-Generated Summary