Penser en Jeux : Apprendre à Raisonner dans les Jeux via l'Apprentissage par Renforcement avec des Modèles de Langage à Grande Échelle
Think in Games: Learning to Reason in Games via Reinforcement Learning with Large Language Models
August 29, 2025
papers.authors: Yi Liao, Yu Gu, Yuan Sui, Zining Zhu, Yifan Lu, Guohua Tang, Zhongqian Sun, Wei Yang
cs.AI
papers.abstract
Les grands modèles de langage (LLM) excellent dans des tâches de raisonnement complexe telles que les mathématiques et la programmation, mais ils éprouvent souvent des difficultés avec des tâches interactives simples que les jeunes enfants accomplissent sans effort. Cette divergence met en lumière un écart critique entre la connaissance déclarative (savoir quelque chose) et la connaissance procédurale (savoir comment faire quelque chose). Bien que les agents d'apprentissage par renforcement (RL) traditionnels puissent acquérir des connaissances procédurales par l'interaction avec l'environnement, ils fonctionnent souvent comme des boîtes noires et nécessitent des volumes importants de données d'entraînement. En revanche, les LLM possèdent une vaste connaissance du monde et des capacités de raisonnement, mais sont incapables de convertir efficacement cette connaissance statique en prise de décision dynamique dans des contextes interactifs. Pour relever ce défi, nous proposons Think in Games (TiG), un cadre novateur qui permet aux LLM de développer une compréhension procédurale grâce à une interaction directe avec des environnements de jeu, tout en conservant leurs capacités inhérentes de raisonnement et d'explication. Plus précisément, TiG reformule la prise de décision basée sur le RL en une tâche de modélisation du langage : les LLM génèrent des politiques guidées par le langage, qui sont affinées itérativement par l'apprentissage par renforcement en ligne basé sur les retours de l'environnement. Nos résultats expérimentaux montrent que TiG comble avec succès l'écart entre la connaissance déclarative et procédurale, atteignant des performances compétitives avec des besoins en données et en calcul considérablement réduits par rapport aux méthodes RL conventionnelles. De plus, TiG fournit des explications étape par étape en langage naturel pour ses décisions, améliorant grandement la transparence et l'interprétabilité dans des tâches interactives complexes.
English
Large language models (LLMs) excel at complex reasoning tasks such as
mathematics and coding, yet they frequently struggle with simple interactive
tasks that young children perform effortlessly. This discrepancy highlights a
critical gap between declarative knowledge (knowing about something) and
procedural knowledge (knowing how to do something). Although traditional
reinforcement learning (RL) agents can acquire procedural knowledge through
environmental interaction, they often operate as black boxes and require
substantial training data. In contrast, LLMs possess extensive world knowledge
and reasoning capabilities, but are unable to effectively convert this static
knowledge into dynamic decision-making in interactive settings. To address this
challenge, we propose Think in Games (TiG), a novel framework that empowers
LLMs to develop procedural understanding through direct interaction with game
environments, while retaining their inherent reasoning and explanatory
abilities. Specifically, TiG reformulates RL-based decision-making as a
language modeling task: LLMs generate language-guided policies, which are
refined iteratively through online reinforcement learning based on
environmental feedback. Our experimental results show that TiG successfully
bridges the gap between declarative and procedural knowledge, achieving
competitive performance with dramatically lower data and computational demands
compared to conventional RL methods. Moreover, TiG provides step-by-step
natural language explanations for its decisions, greatly improving transparency
and interpretability in complex interactive tasks.