Denken in Spellen: Leren Redeneren in Spellen via Reinforcement Learning met Grote Taalmodellen
Think in Games: Learning to Reason in Games via Reinforcement Learning with Large Language Models
August 29, 2025
Auteurs: Yi Liao, Yu Gu, Yuan Sui, Zining Zhu, Yifan Lu, Guohua Tang, Zhongqian Sun, Wei Yang
cs.AI
Samenvatting
Grote taalmodellen (LLMs) blinken uit in complexe redeneertaken zoals wiskunde en programmeren, maar hebben vaak moeite met eenvoudige interactieve taken die jonge kinderen moeiteloos uitvoeren. Deze discrepantie benadrukt een kritisch verschil tussen declaratieve kennis (weten over iets) en procedurele kennis (weten hoe iets te doen). Hoewel traditionele reinforcement learning (RL)-agenten procedurele kennis kunnen verwerven door interactie met de omgeving, functioneren ze vaak als black boxes en hebben ze aanzienlijke trainingsdata nodig. Daarentegen beschikken LLMs over uitgebreide wereldkennis en redeneervermogens, maar zijn ze niet in staat om deze statische kennis effectief om te zetten in dynamische besluitvorming in interactieve situaties. Om deze uitdaging aan te pakken, stellen we Think in Games (TiG) voor, een nieuw framework dat LLMs in staat stelt om procedureel begrip te ontwikkelen door directe interactie met spelomgevingen, terwijl hun inherente redeneer- en uitlegvermogens behouden blijven. Specifiek herformuleert TiG RL-gebaseerde besluitvorming als een taalmodelleertaak: LLMs genereren taalgestuurde beleidsregels, die iteratief worden verfijnd door online reinforcement learning op basis van omgevingsfeedback. Onze experimentele resultaten tonen aan dat TiG met succes de kloof tussen declaratieve en procedurele kennis overbrugt, waarbij het competitieve prestaties behaalt met aanzienlijk minder data en rekenkundige eisen vergeleken met conventionele RL-methoden. Bovendien biedt TiG stap-voor-stap natuurlijke taalverklaringen voor zijn beslissingen, wat de transparantie en interpreteerbaarheid in complexe interactieve taken aanzienlijk verbetert.
English
Large language models (LLMs) excel at complex reasoning tasks such as
mathematics and coding, yet they frequently struggle with simple interactive
tasks that young children perform effortlessly. This discrepancy highlights a
critical gap between declarative knowledge (knowing about something) and
procedural knowledge (knowing how to do something). Although traditional
reinforcement learning (RL) agents can acquire procedural knowledge through
environmental interaction, they often operate as black boxes and require
substantial training data. In contrast, LLMs possess extensive world knowledge
and reasoning capabilities, but are unable to effectively convert this static
knowledge into dynamic decision-making in interactive settings. To address this
challenge, we propose Think in Games (TiG), a novel framework that empowers
LLMs to develop procedural understanding through direct interaction with game
environments, while retaining their inherent reasoning and explanatory
abilities. Specifically, TiG reformulates RL-based decision-making as a
language modeling task: LLMs generate language-guided policies, which are
refined iteratively through online reinforcement learning based on
environmental feedback. Our experimental results show that TiG successfully
bridges the gap between declarative and procedural knowledge, achieving
competitive performance with dramatically lower data and computational demands
compared to conventional RL methods. Moreover, TiG provides step-by-step
natural language explanations for its decisions, greatly improving transparency
and interpretability in complex interactive tasks.