Modelado de Mundo Automejorable con Acciones Latentes

Resumen

El modelado interno del mundo —predecir transiciones entre estados anteriores X y estados siguientes Y bajo acciones Z— es esencial para el razonamiento y la planificación en LLMs y VLMs. Aprender dichos modelos normalmente requiere trayectorias costosas etiquetadas con acciones. Proponemos SWIRL, un marco de auto-mejora que aprende de secuencias que contienen solo estados, tratando las acciones como una variable latente y alternando entre Modelado Directo del Mundo (FWM) P_θ(Y|X,Z) y un Modelado de Dinámica Inversa (IDM) Q_φ(Z|X,Y). SWIRL itera dos fases: (1) Maximización de Información Variacional, que actualiza el FWM para generar estados siguientes que maximicen la información mutua condicional con las acciones latentes dado los estados previos, fomentando una consistencia identificable; y (2) Maximización del ELBO, que actualiza el IDM para explicar las transiciones observadas, efectuando un ascenso coordenado. Ambos modelos se entrenan con aprendizaje por refuerzo (específicamente, GRPO) utilizando la log-probabilidad del modelo opuesto congelado como señal de recompensa. Proporcionamos garantías teóricas de capacidad de aprendizaje para ambas actualizaciones, y evaluamos SWIRL en LLMs y VLMs a través de múltiples entornos: dinámicas visuales de mundo abierto de turno único y múltiples turnos, y entornos textuales sintéticos para física, web y uso de herramientas. SWIRL logra mejoras del 16% en AURORABench, 28% en ByteMorph, 16% en WorldPredictionBench y 14% en StableToolBench.

English

Internal modelling of the world -- predicting transitions between previous states X and next states Y under actions Z -- is essential to reasoning and planning for LLMs and VLMs. Learning such models typically requires costly action-labelled trajectories. We propose SWIRL, a self-improvement framework that learns from state-only sequences by treating actions as a latent variable and alternating between Forward World Modelling (FWM) P_θ(Y|X,Z) and an Inverse Dynamics Modelling (IDM) Q_φ(Z|X,Y). SWIRL iterates two phases: (1) Variational Information Maximisation, which updates the FWM to generate next states that maximise conditional mutual information with latent actions given prior states, encouraging identifiable consistency; and (2) ELBO Maximisation, which updates the IDM to explain observed transitions, effectively performing coordinate ascent. Both models are trained with reinforcement learning (specifically, GRPO) with the opposite frozen model's log-probability as a reward signal. We provide theoretical learnability guarantees for both updates, and evaluate SWIRL on LLMs and VLMs across multiple environments: single-turn and multi-turn open-world visual dynamics and synthetic textual environments for physics, web, and tool calling. SWIRL achieves gains of 16% on AURORABench, 28% on ByteMorph, 16% on WorldPredictionBench, and 14% on StableToolBench.