Мыслить в играх: Обучение логическому мышлению в играх с использованием обучения с подкреплением и больших языковых моделей
Think in Games: Learning to Reason in Games via Reinforcement Learning with Large Language Models
August 29, 2025
Авторы: Yi Liao, Yu Gu, Yuan Sui, Zining Zhu, Yifan Lu, Guohua Tang, Zhongqian Sun, Wei Yang
cs.AI
Аннотация
Крупные языковые модели (LLM) превосходно справляются со сложными задачами, требующими рассуждений, такими как математика и программирование, однако часто испытывают трудности с простыми интерактивными задачами, которые маленькие дети выполняют без усилий. Это несоответствие подчеркивает критический разрыв между декларативными знаниями (знанием о чем-то) и процедурными знаниями (знанием того, как что-то делать). Хотя традиционные агенты обучения с подкреплением (RL) могут приобретать процедурные знания через взаимодействие с окружающей средой, они часто работают как "черные ящики" и требуют значительных объемов обучающих данных. В отличие от них, LLM обладают обширными знаниями о мире и способностями к рассуждениям, но не могут эффективно преобразовать эти статические знания в динамическое принятие решений в интерактивных сценариях. Для решения этой проблемы мы предлагаем Think in Games (TiG) — новый фреймворк, который позволяет LLM развивать процедурное понимание через прямое взаимодействие с игровыми средами, сохраняя при этом их врожденные способности к рассуждениям и объяснению. В частности, TiG переформулирует принятие решений на основе RL как задачу языкового моделирования: LLM генерируют политики, управляемые языком, которые итеративно уточняются через онлайн-обучение с подкреплением на основе обратной связи от среды. Наши экспериментальные результаты показывают, что TiG успешно устраняет разрыв между декларативными и процедурными знаниями, достигая конкурентоспособной производительности при значительно меньших требованиях к данным и вычислительным ресурсам по сравнению с традиционными методами RL. Более того, TiG предоставляет пошаговые объяснения своих решений на естественном языке, что значительно повышает прозрачность и интерпретируемость в сложных интерактивных задачах.
English
Large language models (LLMs) excel at complex reasoning tasks such as
mathematics and coding, yet they frequently struggle with simple interactive
tasks that young children perform effortlessly. This discrepancy highlights a
critical gap between declarative knowledge (knowing about something) and
procedural knowledge (knowing how to do something). Although traditional
reinforcement learning (RL) agents can acquire procedural knowledge through
environmental interaction, they often operate as black boxes and require
substantial training data. In contrast, LLMs possess extensive world knowledge
and reasoning capabilities, but are unable to effectively convert this static
knowledge into dynamic decision-making in interactive settings. To address this
challenge, we propose Think in Games (TiG), a novel framework that empowers
LLMs to develop procedural understanding through direct interaction with game
environments, while retaining their inherent reasoning and explanatory
abilities. Specifically, TiG reformulates RL-based decision-making as a
language modeling task: LLMs generate language-guided policies, which are
refined iteratively through online reinforcement learning based on
environmental feedback. Our experimental results show that TiG successfully
bridges the gap between declarative and procedural knowledge, achieving
competitive performance with dramatically lower data and computational demands
compared to conventional RL methods. Moreover, TiG provides step-by-step
natural language explanations for its decisions, greatly improving transparency
and interpretability in complex interactive tasks.