PokéLLMon: Een Agent op Menselijk Niveau voor Pokémon Gevechten met Grote Taalmodellen
PokéLLMon: A Human-Parity Agent for Pokémon Battles with Large Language Models
February 2, 2024
Auteurs: Sihao Hu, Tiansheng Huang, Ling Liu
cs.AI
Samenvatting
We introduceren Pok\'eLLMon, de eerste LLM-belichaamde agent die een menselijk-pariteit prestatieniveau bereikt in tactische gevechtsspellen, zoals gedemonstreerd in Pok\'emon-gevechten. Het ontwerp van Pok\'eLLMon omvat drie belangrijke strategieën:
(i) In-context reinforcement learning dat onmiddellijk tekstgebaseerde feedback uit gevechten verwerkt om het beleid iteratief te verfijnen; (ii) Kennis-augmented generatie die externe kennis ophaalt om hallucinatie tegen te gaan en de agent in staat stelt tijdig en adequaat te handelen; (iii) Consistente actiegeneratie om het paniekschakelingsfenomeen te verminderen wanneer de agent een krachtige tegenstander tegenkomt en het gevecht wil ontwijken. We tonen aan dat online gevechten tegen mensen Pok\'eLLMon's mensachtige gevechtsstrategieën en just-in-time besluitvorming demonstreren, met een winstpercentage van 49\% in de Ladder-competities en 56\% in de uitgenodigde gevechten. Onze implementatie en speelbare gevechtslogboeken zijn beschikbaar op: https://github.com/git-disl/PokeLLMon.
English
We introduce Pok\'eLLMon, the first LLM-embodied agent that achieves
human-parity performance in tactical battle games, as demonstrated in Pok\'emon
battles. The design of Pok\'eLLMon incorporates three key strategies:
(i) In-context reinforcement learning that instantly consumes text-based
feedback derived from battles to iteratively refine the policy; (ii)
Knowledge-augmented generation that retrieves external knowledge to counteract
hallucination and enables the agent to act timely and properly; (iii)
Consistent action generation to mitigate the panic switching
phenomenon when the agent faces a powerful opponent and wants to elude the
battle. We show that online battles against human demonstrates
Pok\'eLLMon's human-like battle strategies and just-in-time decision
making, achieving 49\% of win rate in the Ladder competitions and 56\% of win
rate in the invited battles. Our implementation and playable battle logs are
available at: https://github.com/git-disl/PokeLLMon.