Selbstverbessernde Weltmodellierung mit latenten Aktionen

Zusammenfassung

Die interne Modellierung der Welt – das Vorhersagen von Übergängen zwischen vorherigen Zuständen X und nachfolgenden Zuständen Y unter Aktionen Z – ist für das Schließen und Planen von LLMs und VLMs wesentlich. Das Erlernen solcher Modelle erfordert typischerweise kostspielige, aktionsbeschriftete Trajektorien. Wir schlagen SWIRL vor, einen Selbstverbesserungsrahmen, der aus zustandsbasierten Sequenzen lernt, indem Aktionen als latente Variable behandelt und zwischen Vorwärts-Weltmodellierung (FWM) P_θ(Y|X,Z) und inverser Dynamikmodellierung (IDM) Q_φ(Z|X,Y) abgewechselt wird. SWIRL durchläuft iterativ zwei Phasen: (1) Variational Information Maximisation, die das FWM aktualisiert, um Nachfolgezustände zu erzeugen, die die bedingte gegenseitige Information mit latenten Aktionen bei gegebenen vorherigen Zuständen maximieren und damit identifizierbare Konsistenz fördern; und (2) ELBO-Maximierung, die das IDM aktualisiert, um beobachtete Übergänge zu erklären, was effektiv einer Koordinatenaufstiegsmethode entspricht. Beide Modelle werden mit Bestärkendem Lernen (speziell GRPO) trainiert, wobei die Log-Wahrscheinlichkeit des jeweils eingefrorenen Gegenmodells als Belohnungssignal dient. Wir liefern theoretische Lernbarkeitsgarantien für beide Aktualisierungen und evaluieren SWIRL an LLMs und VLMs in mehreren Umgebungen: Einzelzug- und Mehrzug-Open-World-visuelle Dynamiken sowie synthetische textuelle Umgebungen für Physik, Web und Tool Calling. SWIRL erzielt Steigerungen von 16 % auf AURORABench, 28 % auf ByteMorph, 16 % auf WorldPredictionBench und 14 % auf StableToolBench.

English

Internal modelling of the world -- predicting transitions between previous states X and next states Y under actions Z -- is essential to reasoning and planning for LLMs and VLMs. Learning such models typically requires costly action-labelled trajectories. We propose SWIRL, a self-improvement framework that learns from state-only sequences by treating actions as a latent variable and alternating between Forward World Modelling (FWM) P_θ(Y|X,Z) and an Inverse Dynamics Modelling (IDM) Q_φ(Z|X,Y). SWIRL iterates two phases: (1) Variational Information Maximisation, which updates the FWM to generate next states that maximise conditional mutual information with latent actions given prior states, encouraging identifiable consistency; and (2) ELBO Maximisation, which updates the IDM to explain observed transitions, effectively performing coordinate ascent. Both models are trained with reinforcement learning (specifically, GRPO) with the opposite frozen model's log-probability as a reward signal. We provide theoretical learnability guarantees for both updates, and evaluate SWIRL on LLMs and VLMs across multiple environments: single-turn and multi-turn open-world visual dynamics and synthetic textual environments for physics, web, and tool calling. SWIRL achieves gains of 16% on AURORABench, 28% on ByteMorph, 16% on WorldPredictionBench, and 14% on StableToolBench.

Selbstverbessernde Weltmodellierung mit latenten Aktionen

Self-Improving World Modelling with Latent Actions

Zusammenfassung

Support