Modélisation auto-améliorante du monde avec actions latentes

Résumé

La modélisation interne du monde — prédire les transitions entre les états antérieurs X et les états suivants Y sous des actions Z — est essentielle au raisonnement et à la planification pour les LLM et les VLM. L'apprentissage de tels modèles nécessite généralement des trajectoires coûteuses étiquetées par actions. Nous proposons SWIRL, un cadre d'auto-amélioration qui apprend à partir de séquences d'états seuls en traitant les actions comme une variable latente et en alternant entre la Modélisation Directe du Monde (FWM) P_θ(Y|X,Z) et une Modélisation de la Dynamique Inverse (IDM) Q_φ(Z|X,Y). SWIRL itère deux phases : (1) la Maximisation Variationnelle de l'Information, qui met à jour la FWM pour générer des états suivants maximisant l'information mutuelle conditionnelle avec les actions latentes étant donné les états antérieurs, favorisant une cohérence identifiable ; et (2) la Maximisation de l'ELBO, qui met à jour l'IDM pour expliquer les transitions observées, effectuant ainsi une montée de coordonnées. Les deux modèles sont entraînés par apprentissage par renforcement (spécifiquement GRPO) avec la log-probabilité du modèle opposé gelé comme signal de récompense. Nous fournissons des garanties théoriques d'apprenabilité pour les deux mises à jour, et évaluons SWIRL sur des LLM et VLM dans plusieurs environnements : dynamiques visuelles en monde ouvert à tour unique et multi-tours, et environnements textuels synthétiques pour la physique, le web et l'appel d'outils. SWIRL obtient des gains de 16 % sur AURORABench, 28 % sur ByteMorph, 16 % sur WorldPredictionBench et 14 % sur StableToolBench.

English

Internal modelling of the world -- predicting transitions between previous states X and next states Y under actions Z -- is essential to reasoning and planning for LLMs and VLMs. Learning such models typically requires costly action-labelled trajectories. We propose SWIRL, a self-improvement framework that learns from state-only sequences by treating actions as a latent variable and alternating between Forward World Modelling (FWM) P_θ(Y|X,Z) and an Inverse Dynamics Modelling (IDM) Q_φ(Z|X,Y). SWIRL iterates two phases: (1) Variational Information Maximisation, which updates the FWM to generate next states that maximise conditional mutual information with latent actions given prior states, encouraging identifiable consistency; and (2) ELBO Maximisation, which updates the IDM to explain observed transitions, effectively performing coordinate ascent. Both models are trained with reinforcement learning (specifically, GRPO) with the opposite frozen model's log-probability as a reward signal. We provide theoretical learnability guarantees for both updates, and evaluate SWIRL on LLMs and VLMs across multiple environments: single-turn and multi-turn open-world visual dynamics and synthetic textual environments for physics, web, and tool calling. SWIRL achieves gains of 16% on AURORABench, 28% on ByteMorph, 16% on WorldPredictionBench, and 14% on StableToolBench.

Modélisation auto-améliorante du monde avec actions latentes

Self-Improving World Modelling with Latent Actions

Résumé

Support