Denken in Spielen: Erlernen des logischen Schließens in Spielen durch Reinforcement Learning mit großen Sprachmodellen
Think in Games: Learning to Reason in Games via Reinforcement Learning with Large Language Models
August 29, 2025
papers.authors: Yi Liao, Yu Gu, Yuan Sui, Zining Zhu, Yifan Lu, Guohua Tang, Zhongqian Sun, Wei Yang
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) glänzen bei komplexen Denkaufgaben wie Mathematik und Programmierung, haben jedoch häufig Schwierigkeiten mit einfachen interaktiven Aufgaben, die kleine Kinder mühelos bewältigen. Diese Diskrepanz verdeutlicht eine entscheidende Lücke zwischen deklarativem Wissen (das Wissen über etwas) und prozeduralem Wissen (das Wissen, wie man etwas macht). Obwohl traditionelle Reinforcement-Learning-Agenten (RL) prozedurales Wissen durch Interaktion mit der Umwelt erwerben können, agieren sie oft als Blackbox und benötigen umfangreiche Trainingsdaten. Im Gegensatz dazu verfügen LLMs über umfangreiches Weltwissen und Denkfähigkeiten, sind jedoch nicht in der Lage, dieses statische Wissen effektiv in dynamische Entscheidungsfindung in interaktiven Umgebungen umzusetzen. Um diese Herausforderung zu bewältigen, schlagen wir Think in Games (TiG) vor, ein neuartiges Framework, das LLMs befähigt, prozedurales Verständnis durch direkte Interaktion mit Spielumgebungen zu entwickeln, während sie ihre inhärenten Denk- und Erklärungsfähigkeiten beibehalten. Konkret formuliert TiG RL-basierte Entscheidungsfindung als Sprachmodellierungsaufgabe um: LLMs generieren sprachgesteuerte Richtlinien, die durch Online-Reinforcement-Learning basierend auf Umweltfeedback iterativ verfeinert werden. Unsere experimentellen Ergebnisse zeigen, dass TiG erfolgreich die Lücke zwischen deklarativem und prozeduralem Wissen schließt und dabei eine wettbewerbsfähige Leistung mit deutlich geringerem Daten- und Rechenaufwand im Vergleich zu herkömmlichen RL-Methoden erzielt. Darüber hinaus liefert TiG schrittweise natürliche Spracherklärungen für seine Entscheidungen, was die Transparenz und Interpretierbarkeit bei komplexen interaktiven Aufgaben erheblich verbessert.
English
Large language models (LLMs) excel at complex reasoning tasks such as
mathematics and coding, yet they frequently struggle with simple interactive
tasks that young children perform effortlessly. This discrepancy highlights a
critical gap between declarative knowledge (knowing about something) and
procedural knowledge (knowing how to do something). Although traditional
reinforcement learning (RL) agents can acquire procedural knowledge through
environmental interaction, they often operate as black boxes and require
substantial training data. In contrast, LLMs possess extensive world knowledge
and reasoning capabilities, but are unable to effectively convert this static
knowledge into dynamic decision-making in interactive settings. To address this
challenge, we propose Think in Games (TiG), a novel framework that empowers
LLMs to develop procedural understanding through direct interaction with game
environments, while retaining their inherent reasoning and explanatory
abilities. Specifically, TiG reformulates RL-based decision-making as a
language modeling task: LLMs generate language-guided policies, which are
refined iteratively through online reinforcement learning based on
environmental feedback. Our experimental results show that TiG successfully
bridges the gap between declarative and procedural knowledge, achieving
competitive performance with dramatically lower data and computational demands
compared to conventional RL methods. Moreover, TiG provides step-by-step
natural language explanations for its decisions, greatly improving transparency
and interpretability in complex interactive tasks.