PokéLLMon : Un agent à parité humaine pour les combats Pokémon utilisant des modèles de langage à grande échelle
PokéLLMon: A Human-Parity Agent for Pokémon Battles with Large Language Models
February 2, 2024
Auteurs: Sihao Hu, Tiansheng Huang, Ling Liu
cs.AI
Résumé
Nous présentons Pok\'eLLMon, le premier agent incarné par un LLM (Large Language Model) qui atteint des performances comparables à celles des humains dans les jeux de bataille tactiques, comme démontré dans les combats Pok\'emon. La conception de Pok\'eLLMon intègre trois stratégies clés : (i) Un apprentissage par renforcement en contexte qui consomme instantanément les retours textuels issus des batailles pour affiner itérativement la politique ; (ii) Une génération augmentée par la connaissance qui récupère des informations externes pour contrer les hallucinations et permet à l'agissant d'agir de manière opportune et appropriée ; (iii) Une génération d'actions cohérentes pour atténuer le phénomène de changement paniqué lorsque l'agent est confronté à un adversaire puissant et souhaite fuir le combat. Nous montrons que les batailles en ligne contre des humains démontrent les stratégies de combat semblables à celles des humains et la prise de décision en temps réel de Pok\'eLLMon, atteignant un taux de victoire de 49 % dans les compétitions Ladder et de 56 % dans les batailles sur invitation. Notre implémentation et les journaux de batailles jouables sont disponibles à l'adresse suivante : https://github.com/git-disl/PokeLLMon.
English
We introduce Pok\'eLLMon, the first LLM-embodied agent that achieves
human-parity performance in tactical battle games, as demonstrated in Pok\'emon
battles. The design of Pok\'eLLMon incorporates three key strategies:
(i) In-context reinforcement learning that instantly consumes text-based
feedback derived from battles to iteratively refine the policy; (ii)
Knowledge-augmented generation that retrieves external knowledge to counteract
hallucination and enables the agent to act timely and properly; (iii)
Consistent action generation to mitigate the panic switching
phenomenon when the agent faces a powerful opponent and wants to elude the
battle. We show that online battles against human demonstrates
Pok\'eLLMon's human-like battle strategies and just-in-time decision
making, achieving 49\% of win rate in the Ladder competitions and 56\% of win
rate in the invited battles. Our implementation and playable battle logs are
available at: https://github.com/git-disl/PokeLLMon.