PokéLLMon: Un Agente de Paridad Humana para Batallas Pokémon con Modelos de Lenguaje a Gran Escala
PokéLLMon: A Human-Parity Agent for Pokémon Battles with Large Language Models
February 2, 2024
Autores: Sihao Hu, Tiansheng Huang, Ling Liu
cs.AI
Resumen
Presentamos Pok\'eLLMon, el primer agente encarnado por un LLM que alcanza un rendimiento a la par con los humanos en juegos de batallas tácticas, como se demuestra en las batallas de Pok\'emon. El diseño de Pok\'eLLMon incorpora tres estrategias clave: (i) Aprendizaje por refuerzo en contexto que consume instantáneamente retroalimentación basada en texto derivada de las batallas para refinar iterativamente la política; (ii) Generación aumentada con conocimiento que recupera conocimiento externo para contrarrestar la alucinación y permite al agente actuar de manera oportuna y adecuada; (iii) Generación de acciones consistentes para mitigar el fenómeno de cambio por pánico cuando el agente se enfrenta a un oponente poderoso y desea eludir la batalla. Mostramos que las batallas en línea contra humanos demuestran las estrategias de batalla similares a las humanas y la toma de decisiones justo a tiempo de Pok\'eLLMon, logrando una tasa de victoria del 49\% en las competiciones de Ladder y del 56\% en las batallas invitadas. Nuestra implementación y los registros de batallas jugables están disponibles en: https://github.com/git-disl/PokeLLMon.
English
We introduce Pok\'eLLMon, the first LLM-embodied agent that achieves
human-parity performance in tactical battle games, as demonstrated in Pok\'emon
battles. The design of Pok\'eLLMon incorporates three key strategies:
(i) In-context reinforcement learning that instantly consumes text-based
feedback derived from battles to iteratively refine the policy; (ii)
Knowledge-augmented generation that retrieves external knowledge to counteract
hallucination and enables the agent to act timely and properly; (iii)
Consistent action generation to mitigate the panic switching
phenomenon when the agent faces a powerful opponent and wants to elude the
battle. We show that online battles against human demonstrates
Pok\'eLLMon's human-like battle strategies and just-in-time decision
making, achieving 49\% of win rate in the Ladder competitions and 56\% of win
rate in the invited battles. Our implementation and playable battle logs are
available at: https://github.com/git-disl/PokeLLMon.