Pensare nei Giochi: Apprendere il Ragionamento nei Giochi tramite Apprendimento per Rinforzo con Modelli Linguistici di Grande Scala
Think in Games: Learning to Reason in Games via Reinforcement Learning with Large Language Models
August 29, 2025
Autori: Yi Liao, Yu Gu, Yuan Sui, Zining Zhu, Yifan Lu, Guohua Tang, Zhongqian Sun, Wei Yang
cs.AI
Abstract
I grandi modelli linguistici (LLM) eccellono in compiti di ragionamento complesso come la matematica e la programmazione, ma spesso faticano con semplici attività interattive che i bambini svolgono senza sforzo. Questa discrepanza evidenzia un divario critico tra conoscenza dichiarativa (sapere qualcosa) e conoscenza procedurale (sapere come fare qualcosa). Sebbene gli agenti tradizionali di apprendimento per rinforzo (RL) possano acquisire conoscenza procedurale attraverso l'interazione con l'ambiente, spesso operano come scatole nere e richiedono una quantità significativa di dati di addestramento. Al contrario, gli LLM possiedono una vasta conoscenza del mondo e capacità di ragionamento, ma non sono in grado di convertire efficacemente questa conoscenza statica in decision-making dinamico in contesti interattivi. Per affrontare questa sfida, proponiamo Think in Games (TiG), un nuovo framework che consente agli LLM di sviluppare comprensione procedurale attraverso l'interazione diretta con ambienti di gioco, mantenendo al contempo le loro innate capacità di ragionamento e spiegazione. Nello specifico, TiG riformula il decision-making basato su RL come un compito di modellazione linguistica: gli LLM generano politiche guidate dal linguaggio, che vengono affinate iterativamente attraverso l'apprendimento per rinforzo online basato sul feedback ambientale. I nostri risultati sperimentali dimostrano che TiG colma con successo il divario tra conoscenza dichiarativa e procedurale, raggiungendo prestazioni competitive con richieste di dati e computazione drasticamente inferiori rispetto ai metodi RL convenzionali. Inoltre, TiG fornisce spiegazioni passo-passo in linguaggio naturale per le sue decisioni, migliorando notevolmente la trasparenza e l'interpretabilità in compiti interattivi complessi.
English
Large language models (LLMs) excel at complex reasoning tasks such as
mathematics and coding, yet they frequently struggle with simple interactive
tasks that young children perform effortlessly. This discrepancy highlights a
critical gap between declarative knowledge (knowing about something) and
procedural knowledge (knowing how to do something). Although traditional
reinforcement learning (RL) agents can acquire procedural knowledge through
environmental interaction, they often operate as black boxes and require
substantial training data. In contrast, LLMs possess extensive world knowledge
and reasoning capabilities, but are unable to effectively convert this static
knowledge into dynamic decision-making in interactive settings. To address this
challenge, we propose Think in Games (TiG), a novel framework that empowers
LLMs to develop procedural understanding through direct interaction with game
environments, while retaining their inherent reasoning and explanatory
abilities. Specifically, TiG reformulates RL-based decision-making as a
language modeling task: LLMs generate language-guided policies, which are
refined iteratively through online reinforcement learning based on
environmental feedback. Our experimental results show that TiG successfully
bridges the gap between declarative and procedural knowledge, achieving
competitive performance with dramatically lower data and computational demands
compared to conventional RL methods. Moreover, TiG provides step-by-step
natural language explanations for its decisions, greatly improving transparency
and interpretability in complex interactive tasks.