ChatPaper.aiChatPaper

PokéLLMon: 大規模言語モデルを用いたポケモンバトルにおける人間並みのエージェント

PokéLLMon: A Human-Parity Agent for Pokémon Battles with Large Language Models

February 2, 2024
著者: Sihao Hu, Tiansheng Huang, Ling Liu
cs.AI

要旨

我々は、ポケモンバトルにおいて人間並みの性能を達成する初のLLM体現エージェント「Pok\'eLLMon」を紹介する。Pok\'eLLMonの設計には、以下の3つの主要な戦略が組み込まれている: (i) バトルから得られるテキストベースのフィードバックを即座に消費し、ポリシーを反復的に洗練するインコンテキスト強化学習 (ii) 外部知識を検索して幻覚を抑制し、エージェントが適切かつ迅速に行動できるようにする知識拡張生成 (iii) 強力な相手に直面し、バトルを回避したい際に発生するパニックスイッチング現象を軽減するための一貫したアクション生成 人間とのオンラインバトルでは、Pok\'eLLMonが人間らしい戦略とジャストインタイムの意思決定を示し、ラダー競技で49%、招待バトルで56%の勝率を達成したことが実証された。我々の実装とプレイ可能なバトルログは、https://github.com/git-disl/PokeLLMon で公開されている。
English
We introduce Pok\'eLLMon, the first LLM-embodied agent that achieves human-parity performance in tactical battle games, as demonstrated in Pok\'emon battles. The design of Pok\'eLLMon incorporates three key strategies: (i) In-context reinforcement learning that instantly consumes text-based feedback derived from battles to iteratively refine the policy; (ii) Knowledge-augmented generation that retrieves external knowledge to counteract hallucination and enables the agent to act timely and properly; (iii) Consistent action generation to mitigate the panic switching phenomenon when the agent faces a powerful opponent and wants to elude the battle. We show that online battles against human demonstrates Pok\'eLLMon's human-like battle strategies and just-in-time decision making, achieving 49\% of win rate in the Ladder competitions and 56\% of win rate in the invited battles. Our implementation and playable battle logs are available at: https://github.com/git-disl/PokeLLMon.
PDF323December 15, 2024