Autodesenvolvimento da Modelagem do Mundo com Ações Latentes

Resumo

A modelagem interna do mundo – prever transições entre estados anteriores X e estados seguintes Y sob ações Z – é essencial para o raciocínio e planejamento em LLMs e VLMs. A aprendizagem de tais modelos normalmente requer trajectórias dispendiosas com etiquetas de ação. Propomos o SWIRL, um quadro de autoaprimoramento que aprende a partir de sequências contendo apenas estados, tratando as ações como uma variável latente e alternando entre a Modelagem Direta do Mundo (FWM) P_θ(Y|X,Z) e uma Modelagem de Dinâmica Inversa (IDM) Q_φ(Z|X,Y). O SWIRL itera duas fases: (1) Maximização de Informação Variacional, que atualiza a FWM para gerar estados seguintes que maximizam a informação mútua condicional com as ações latentes dado os estados anteriores, incentivando uma consistência identificável; e (2) Maximização do ELBO, que atualiza a IDM para explicar transições observadas, efetivamente realizando uma subida coordenada. Ambos os modelos são treinados com aprendizagem por reforço (especificamente, GRPO) usando o log-probabilidade do modelo oposto congelado como sinal de recompensa. Fornecemos garantias teóricas de capacidade de aprendizagem para ambas as atualizações e avaliamos o SWIRL em LLMs e VLMs através de múltiplos ambientes: dinâmicas visuais de mundo aberto de turno único e múltiplos turnos, e ambientes textuais sintéticos para física, web e chamada de ferramentas. O SWIRL alcança ganhos de 16% no AURORABench, 28% no ByteMorph, 16% no WorldPredictionBench e 14% no StableToolBench.

English

Internal modelling of the world -- predicting transitions between previous states X and next states Y under actions Z -- is essential to reasoning and planning for LLMs and VLMs. Learning such models typically requires costly action-labelled trajectories. We propose SWIRL, a self-improvement framework that learns from state-only sequences by treating actions as a latent variable and alternating between Forward World Modelling (FWM) P_θ(Y|X,Z) and an Inverse Dynamics Modelling (IDM) Q_φ(Z|X,Y). SWIRL iterates two phases: (1) Variational Information Maximisation, which updates the FWM to generate next states that maximise conditional mutual information with latent actions given prior states, encouraging identifiable consistency; and (2) ELBO Maximisation, which updates the IDM to explain observed transitions, effectively performing coordinate ascent. Both models are trained with reinforcement learning (specifically, GRPO) with the opposite frozen model's log-probability as a reward signal. We provide theoretical learnability guarantees for both updates, and evaluate SWIRL on LLMs and VLMs across multiple environments: single-turn and multi-turn open-world visual dynamics and synthetic textual environments for physics, web, and tool calling. SWIRL achieves gains of 16% on AURORABench, 28% on ByteMorph, 16% on WorldPredictionBench, and 14% on StableToolBench.

Autodesenvolvimento da Modelagem do Mundo com Ações Latentes

Self-Improving World Modelling with Latent Actions

Resumo

Support