포켓몬 배틀에서 인간과 동등한 성능을 보이는 대형 언어 모델 기반 에이전트: PokéLLMon
PokéLLMon: A Human-Parity Agent for Pokémon Battles with Large Language Models
February 2, 2024
저자: Sihao Hu, Tiansheng Huang, Ling Liu
cs.AI
초록
우리는 포켓몬 배틀에서 인간과 동등한 성능을 달성하는 최초의 LLM 구현체인 Pok\'eLLMon을 소개한다. Pok\'eLLMon의 설계는 세 가지 핵심 전략을 포함한다: (i) 배틀에서 도출된 텍스트 기반 피드백을 즉시 소비하여 정책을 반복적으로 개선하는 인-컨텍스트 강화 학습; (ii) 환각을 방지하고 에이전트가 적시에 적절하게 행동할 수 있도록 외부 지식을 검색하는 지식 증강 생성; (iii) 강력한 상대를 마주하고 전투를 회피하고자 할 때 발생하는 패닉 스위칭 현상을 완화하기 위한 일관된 행동 생성. 우리는 인간과의 온라인 배틀을 통해 Pok\'eLLMon이 인간과 유사한 전략과 적시 의사결정을 보여주며, Ladder 대회에서 49%, 초청 배틀에서 56%의 승률을 달성함을 입증한다. 우리의 구현 및 플레이 가능한 배틀 로그는 https://github.com/git-disl/PokeLLMon에서 확인할 수 있다.
English
We introduce Pok\'eLLMon, the first LLM-embodied agent that achieves
human-parity performance in tactical battle games, as demonstrated in Pok\'emon
battles. The design of Pok\'eLLMon incorporates three key strategies:
(i) In-context reinforcement learning that instantly consumes text-based
feedback derived from battles to iteratively refine the policy; (ii)
Knowledge-augmented generation that retrieves external knowledge to counteract
hallucination and enables the agent to act timely and properly; (iii)
Consistent action generation to mitigate the panic switching
phenomenon when the agent faces a powerful opponent and wants to elude the
battle. We show that online battles against human demonstrates
Pok\'eLLMon's human-like battle strategies and just-in-time decision
making, achieving 49\% of win rate in the Ladder competitions and 56\% of win
rate in the invited battles. Our implementation and playable battle logs are
available at: https://github.com/git-disl/PokeLLMon.