Modellazione del Mondo Auto-Migliorante con Azioni Latenti

Abstract

La modellazione interna del mondo – prevedere le transizioni tra stati precedenti X e stati successivi Y in base ad azioni Z – è essenziale per il ragionamento e la pianificazione nei LLM e nei VLM. L'apprendimento di tali modelli richiede tipicamente traiettorie costose etichettate con le azioni. Proponiamo SWIRL, un framework di auto-miglioramento che apprende da sequenze di soli stati trattando le azioni come una variabile latente e alternando tra la Modellazione del Mondo in Avanti (FWM) P_θ(Y|X,Z) e una Modellazione della Dinamica Inversa (IDM) Q_φ(Z|X,Y). SWIRL itera due fasi: (1) Massimizzazione dell'Informazione Variazionale, che aggiorna la FWM per generare stati successivi che massimizzano l'informazione mutua condizionata con le azioni latenti dato gli stati precedenti, incoraggiando una consistenza identificabile; e (2) Massimizzazione dell'ELBO, che aggiorna l'IDM per spiegare le transizioni osservate, effettuando di fatto una ascesa coordinata. Entrambi i modelli sono addestrati con apprendimento per rinforzo (nello specifico, GRPO) utilizzando la log-probabilità del modello opposto congelato come segnale di reward. Forniamo garanzie teoriche di apprendibilità per entrambi gli aggiornamenti e valutiamo SWIRL su LLM e VLM in diversi ambienti: dinamiche visive in mondo aperto a turno singolo e multi-turno, e ambienti testuali sintetici per fisica, web e tool calling. SWIRL ottiene miglioramenti del 16% su AURORABench, del 28% su ByteMorph, del 16% su WorldPredictionBench e del 14% su StableToolBench.

English

Internal modelling of the world -- predicting transitions between previous states X and next states Y under actions Z -- is essential to reasoning and planning for LLMs and VLMs. Learning such models typically requires costly action-labelled trajectories. We propose SWIRL, a self-improvement framework that learns from state-only sequences by treating actions as a latent variable and alternating between Forward World Modelling (FWM) P_θ(Y|X,Z) and an Inverse Dynamics Modelling (IDM) Q_φ(Z|X,Y). SWIRL iterates two phases: (1) Variational Information Maximisation, which updates the FWM to generate next states that maximise conditional mutual information with latent actions given prior states, encouraging identifiable consistency; and (2) ELBO Maximisation, which updates the IDM to explain observed transitions, effectively performing coordinate ascent. Both models are trained with reinforcement learning (specifically, GRPO) with the opposite frozen model's log-probability as a reward signal. We provide theoretical learnability guarantees for both updates, and evaluate SWIRL on LLMs and VLMs across multiple environments: single-turn and multi-turn open-world visual dynamics and synthetic textual environments for physics, web, and tool calling. SWIRL achieves gains of 16% on AURORABench, 28% on ByteMorph, 16% on WorldPredictionBench, and 14% on StableToolBench.

Modellazione del Mondo Auto-Migliorante con Azioni Latenti

Self-Improving World Modelling with Latent Actions

Abstract

Support