PokéLLMon: Ein Agent mit menschlicher Parität für Pokémon-Kämpfe auf Basis großer Sprachmodelle
PokéLLMon: A Human-Parity Agent for Pokémon Battles with Large Language Models
February 2, 2024
Autoren: Sihao Hu, Tiansheng Huang, Ling Liu
cs.AI
Zusammenfassung
Wir stellen Pok\'eLLMon vor, den ersten LLM-basierten Agenten, der eine menschenähnliche Leistung in taktischen Kampfspielen erreicht, wie in Pok\'emon-Kämpfen demonstriert. Das Design von Pok\'eLLMon umfasst drei Schlüsselstrategien: (i) In-Context Reinforcement Learning, das textbasierte Rückmeldungen aus Kämpfen sofort verarbeitet, um die Strategie iterativ zu verfeinern; (ii) Wissensgestützte Generierung, die externes Wissen abruft, um Halluzinationen entgegenzuwirken und den Agenten befähigt, zeitnah und angemessen zu handeln; (iii) Konsistente Aktionsgenerierung, um das Phänomen des panischen Wechselns zu mildern, wenn der Agent einem starken Gegner gegenübersteht und dem Kampf entkommen möchte. Wir zeigen, dass Online-Kämpfe gegen Menschen die menschenähnlichen Kampfstrategien und die rechtzeitige Entscheidungsfindung von Pok\'eLLMon demonstrieren, wobei eine Gewinnrate von 49 % in den Ladder-Wettbewerben und 56 % in den eingeladenen Kämpfen erreicht wird. Unsere Implementierung und spielbare Kampfprotokolle sind verfügbar unter: https://github.com/git-disl/PokeLLMon.
English
We introduce Pok\'eLLMon, the first LLM-embodied agent that achieves
human-parity performance in tactical battle games, as demonstrated in Pok\'emon
battles. The design of Pok\'eLLMon incorporates three key strategies:
(i) In-context reinforcement learning that instantly consumes text-based
feedback derived from battles to iteratively refine the policy; (ii)
Knowledge-augmented generation that retrieves external knowledge to counteract
hallucination and enables the agent to act timely and properly; (iii)
Consistent action generation to mitigate the panic switching
phenomenon when the agent faces a powerful opponent and wants to elude the
battle. We show that online battles against human demonstrates
Pok\'eLLMon's human-like battle strategies and just-in-time decision
making, achieving 49\% of win rate in the Ladder competitions and 56\% of win
rate in the invited battles. Our implementation and playable battle logs are
available at: https://github.com/git-disl/PokeLLMon.