ChatPaper.aiChatPaper

PokéLLMon: Агент с человеческим уровнем мастерства для сражений в Pokémon, основанный на больших языковых моделях

PokéLLMon: A Human-Parity Agent for Pokémon Battles with Large Language Models

February 2, 2024
Авторы: Sihao Hu, Tiansheng Huang, Ling Liu
cs.AI

Аннотация

Мы представляем Pok\'eLLMon — первого агента, воплощённого в виде крупной языковой модели (LLM), который демонстрирует производительность на уровне человека в тактических боевых играх, что подтверждается в сражениях в Pok\'emon. Дизайн Pok\'eLLMon включает три ключевые стратегии: (i) Обучение с подкреплением в контексте, которое мгновенно использует текстовую обратную связь, полученную в ходе сражений, для итеративного улучшения политики; (ii) Генерация, дополненная знаниями, которая извлекает внешние знания для противодействия галлюцинациям и позволяет агенту действовать своевременно и корректно; (iii) Согласованная генерация действий для смягчения феномена панической смены покемонов, когда агент сталкивается с сильным противником и пытается избежать боя. Мы показываем, что онлайн-сражения против людей демонстрируют человеко-подобные боевые стратегии и своевременное принятие решений Pok\'eLLMon, достигая 49\% побед в рейтинговых соревнованиях и 56\% побед в приглашённых боях. Наша реализация и игровые логи сражений доступны по адресу: https://github.com/git-disl/PokeLLMon.
English
We introduce Pok\'eLLMon, the first LLM-embodied agent that achieves human-parity performance in tactical battle games, as demonstrated in Pok\'emon battles. The design of Pok\'eLLMon incorporates three key strategies: (i) In-context reinforcement learning that instantly consumes text-based feedback derived from battles to iteratively refine the policy; (ii) Knowledge-augmented generation that retrieves external knowledge to counteract hallucination and enables the agent to act timely and properly; (iii) Consistent action generation to mitigate the panic switching phenomenon when the agent faces a powerful opponent and wants to elude the battle. We show that online battles against human demonstrates Pok\'eLLMon's human-like battle strategies and just-in-time decision making, achieving 49\% of win rate in the Ladder competitions and 56\% of win rate in the invited battles. Our implementation and playable battle logs are available at: https://github.com/git-disl/PokeLLMon.
PDF323December 15, 2024