ChatPaper.aiChatPaper

PokéLLMon: Een Agent op Menselijk Niveau voor Pokémon Gevechten met Grote Taalmodellen

PokéLLMon: A Human-Parity Agent for Pokémon Battles with Large Language Models

February 2, 2024
Auteurs: Sihao Hu, Tiansheng Huang, Ling Liu
cs.AI

Samenvatting

We introduceren Pok\'eLLMon, de eerste LLM-belichaamde agent die een menselijk-pariteit prestatieniveau bereikt in tactische gevechtsspellen, zoals gedemonstreerd in Pok\'emon-gevechten. Het ontwerp van Pok\'eLLMon omvat drie belangrijke strategieën: (i) In-context reinforcement learning dat onmiddellijk tekstgebaseerde feedback uit gevechten verwerkt om het beleid iteratief te verfijnen; (ii) Kennis-augmented generatie die externe kennis ophaalt om hallucinatie tegen te gaan en de agent in staat stelt tijdig en adequaat te handelen; (iii) Consistente actiegeneratie om het paniekschakelingsfenomeen te verminderen wanneer de agent een krachtige tegenstander tegenkomt en het gevecht wil ontwijken. We tonen aan dat online gevechten tegen mensen Pok\'eLLMon's mensachtige gevechtsstrategieën en just-in-time besluitvorming demonstreren, met een winstpercentage van 49\% in de Ladder-competities en 56\% in de uitgenodigde gevechten. Onze implementatie en speelbare gevechtslogboeken zijn beschikbaar op: https://github.com/git-disl/PokeLLMon.
English
We introduce Pok\'eLLMon, the first LLM-embodied agent that achieves human-parity performance in tactical battle games, as demonstrated in Pok\'emon battles. The design of Pok\'eLLMon incorporates three key strategies: (i) In-context reinforcement learning that instantly consumes text-based feedback derived from battles to iteratively refine the policy; (ii) Knowledge-augmented generation that retrieves external knowledge to counteract hallucination and enables the agent to act timely and properly; (iii) Consistent action generation to mitigate the panic switching phenomenon when the agent faces a powerful opponent and wants to elude the battle. We show that online battles against human demonstrates Pok\'eLLMon's human-like battle strategies and just-in-time decision making, achieving 49\% of win rate in the Ladder competitions and 56\% of win rate in the invited battles. Our implementation and playable battle logs are available at: https://github.com/git-disl/PokeLLMon.
PDF323December 15, 2024