Pensando em Jogos: Aprendendo a Raciocinar em Jogos por meio de Aprendizado por Reforço com Modelos de Linguagem de Grande Escala
Think in Games: Learning to Reason in Games via Reinforcement Learning with Large Language Models
August 29, 2025
Autores: Yi Liao, Yu Gu, Yuan Sui, Zining Zhu, Yifan Lu, Guohua Tang, Zhongqian Sun, Wei Yang
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) se destacam em tarefas de raciocínio complexo, como matemática e programação, mas frequentemente têm dificuldades com tarefas interativas simples que crianças pequenas realizam sem esforço. Essa discrepância evidencia uma lacuna crítica entre conhecimento declarativo (saber sobre algo) e conhecimento procedural (saber como fazer algo). Embora agentes tradicionais de aprendizado por reforço (RL) possam adquirir conhecimento procedural por meio da interação com o ambiente, eles geralmente operam como caixas pretas e exigem uma quantidade substancial de dados de treinamento. Em contraste, os LLMs possuem amplo conhecimento do mundo e capacidades de raciocínio, mas são incapazes de converter efetivamente esse conhecimento estático em tomadas de decisão dinâmicas em cenários interativos. Para enfrentar esse desafio, propomos o Think in Games (TiG), uma estrutura inovadora que capacita os LLMs a desenvolver compreensão procedural por meio da interação direta com ambientes de jogo, mantendo suas habilidades inatas de raciocínio e explicação. Especificamente, o TiG reformula a tomada de decisão baseada em RL como uma tarefa de modelagem de linguagem: os LLMs geram políticas guiadas por linguagem, que são refinadas iterativamente por meio de aprendizado por reforço online com base no feedback do ambiente. Nossos resultados experimentais mostram que o TiG conecta com sucesso o conhecimento declarativo e procedural, alcançando desempenho competitivo com demandas de dados e computação drasticamente menores em comparação com métodos convencionais de RL. Além disso, o TiG fornece explicações passo a passo em linguagem natural para suas decisões, melhorando significativamente a transparência e a interpretabilidade em tarefas interativas complexas.
English
Large language models (LLMs) excel at complex reasoning tasks such as
mathematics and coding, yet they frequently struggle with simple interactive
tasks that young children perform effortlessly. This discrepancy highlights a
critical gap between declarative knowledge (knowing about something) and
procedural knowledge (knowing how to do something). Although traditional
reinforcement learning (RL) agents can acquire procedural knowledge through
environmental interaction, they often operate as black boxes and require
substantial training data. In contrast, LLMs possess extensive world knowledge
and reasoning capabilities, but are unable to effectively convert this static
knowledge into dynamic decision-making in interactive settings. To address this
challenge, we propose Think in Games (TiG), a novel framework that empowers
LLMs to develop procedural understanding through direct interaction with game
environments, while retaining their inherent reasoning and explanatory
abilities. Specifically, TiG reformulates RL-based decision-making as a
language modeling task: LLMs generate language-guided policies, which are
refined iteratively through online reinforcement learning based on
environmental feedback. Our experimental results show that TiG successfully
bridges the gap between declarative and procedural knowledge, achieving
competitive performance with dramatically lower data and computational demands
compared to conventional RL methods. Moreover, TiG provides step-by-step
natural language explanations for its decisions, greatly improving transparency
and interpretability in complex interactive tasks.