Zelfverbeterende wereldmodellering met latente acties

Samenvatting

Internaal modelleren van de wereld – het voorspellen van overgangen tussen vorige toestanden X en volgende toestanden Y onder acties Z – is essentieel voor redeneren en plannen bij LLM's en VLM's. Het aanleren van dergelijke modellen vereist doorgaans kostbare trajecten met actielabels. Wij stellen SWIRL voor, een zelfverbeteringsraamwerk dat leert uit toestandssequenties zonder acties door acties als een latente variabele te behandelen en af te wisselen tussen Forward World Modelling (FWM) P_θ(Y|X,Z) en een Inverse Dynamics Modelling (IDM) Q_φ(Z|X,Y). SWIRL doorloopt iteratief twee fasen: (1) Variational Information Maximisation, die de FWM bijwerkt om volgende toestanden te genereren die de conditionele wederzijdse informatie met latente acties gegeven voorgaande toestanden maximaliseren, wat identificeerbare consistentie bevordert; en (2) ELBO-maximalisatie, die de IDM bijwerkt om waargenomen overgangen te verklaren, wat effectief coördinaatstijging uitvoert. Beide modellen worden getraind met reinforcement learning (specifiek GRPO) waarbij de log-kans van het tegenovergestelde bevroren model als beloningssignaal dient. Wij bieden theoretische leerbaarheidsgaranties voor beide updates en evalueren SWIRL op LLM's en VLM's in meerdere omgevingen: single-turn en multi-turn visuele dynamica in een open wereld, en synthetische tekstuele omgevingen voor fysica, web en tool calling. SWIRL behaalt verbeteringen van 16% op AURORABench, 28% op ByteMorph, 16% op WorldPredictionBench en 14% op StableToolBench.

English

Internal modelling of the world -- predicting transitions between previous states X and next states Y under actions Z -- is essential to reasoning and planning for LLMs and VLMs. Learning such models typically requires costly action-labelled trajectories. We propose SWIRL, a self-improvement framework that learns from state-only sequences by treating actions as a latent variable and alternating between Forward World Modelling (FWM) P_θ(Y|X,Z) and an Inverse Dynamics Modelling (IDM) Q_φ(Z|X,Y). SWIRL iterates two phases: (1) Variational Information Maximisation, which updates the FWM to generate next states that maximise conditional mutual information with latent actions given prior states, encouraging identifiable consistency; and (2) ELBO Maximisation, which updates the IDM to explain observed transitions, effectively performing coordinate ascent. Both models are trained with reinforcement learning (specifically, GRPO) with the opposite frozen model's log-probability as a reward signal. We provide theoretical learnability guarantees for both updates, and evaluate SWIRL on LLMs and VLMs across multiple environments: single-turn and multi-turn open-world visual dynamics and synthetic textual environments for physics, web, and tool calling. SWIRL achieves gains of 16% on AURORABench, 28% on ByteMorph, 16% on WorldPredictionBench, and 14% on StableToolBench.

Zelfverbeterende wereldmodellering met latente acties

Self-Improving World Modelling with Latent Actions

Samenvatting

Support