Pensar en Juegos: Aprendiendo a Razonar en Juegos mediante Aprendizaje por Refuerzo con Modelos de Lenguaje de Gran Escala
Think in Games: Learning to Reason in Games via Reinforcement Learning with Large Language Models
August 29, 2025
Autores: Yi Liao, Yu Gu, Yuan Sui, Zining Zhu, Yifan Lu, Guohua Tang, Zhongqian Sun, Wei Yang
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) sobresalen en tareas de razonamiento complejo, como las matemáticas y la programación, pero a menudo tienen dificultades con tareas interactivas simples que los niños pequeños realizan sin esfuerzo. Esta discrepancia resalta una brecha crítica entre el conocimiento declarativo (saber sobre algo) y el conocimiento procedimental (saber cómo hacer algo). Aunque los agentes tradicionales de aprendizaje por refuerzo (RL, por sus siglas en inglés) pueden adquirir conocimiento procedimental a través de la interacción con el entorno, suelen operar como cajas negras y requieren una cantidad sustancial de datos de entrenamiento. En contraste, los LLMs poseen un amplio conocimiento del mundo y capacidades de razonamiento, pero no pueden convertir efectivamente este conocimiento estático en toma de decisiones dinámica en entornos interactivos. Para abordar este desafío, proponemos Think in Games (TiG), un marco novedoso que permite a los LLMs desarrollar comprensión procedimental a través de la interacción directa con entornos de juego, manteniendo sus capacidades inherentes de razonamiento y explicación. Específicamente, TiG reformula la toma de decisiones basada en RL como una tarea de modelado de lenguaje: los LLMs generan políticas guiadas por lenguaje, que se refinan iterativamente mediante aprendizaje por refuerzo en línea basado en la retroalimentación del entorno. Nuestros resultados experimentales muestran que TiG logra cerrar la brecha entre el conocimiento declarativo y procedimental, alcanzando un rendimiento competitivo con demandas de datos y computación significativamente menores en comparación con los métodos tradicionales de RL. Además, TiG proporciona explicaciones paso a paso en lenguaje natural para sus decisiones, mejorando considerablemente la transparencia y la interpretabilidad en tareas interactivas complejas.
English
Large language models (LLMs) excel at complex reasoning tasks such as
mathematics and coding, yet they frequently struggle with simple interactive
tasks that young children perform effortlessly. This discrepancy highlights a
critical gap between declarative knowledge (knowing about something) and
procedural knowledge (knowing how to do something). Although traditional
reinforcement learning (RL) agents can acquire procedural knowledge through
environmental interaction, they often operate as black boxes and require
substantial training data. In contrast, LLMs possess extensive world knowledge
and reasoning capabilities, but are unable to effectively convert this static
knowledge into dynamic decision-making in interactive settings. To address this
challenge, we propose Think in Games (TiG), a novel framework that empowers
LLMs to develop procedural understanding through direct interaction with game
environments, while retaining their inherent reasoning and explanatory
abilities. Specifically, TiG reformulates RL-based decision-making as a
language modeling task: LLMs generate language-guided policies, which are
refined iteratively through online reinforcement learning based on
environmental feedback. Our experimental results show that TiG successfully
bridges the gap between declarative and procedural knowledge, achieving
competitive performance with dramatically lower data and computational demands
compared to conventional RL methods. Moreover, TiG provides step-by-step
natural language explanations for its decisions, greatly improving transparency
and interpretability in complex interactive tasks.