Самосовершенствующееся моделирование мира с помощью латентных действий

Аннотация

Внутреннее моделирование мира — предсказание переходов между предыдущими состояниями X и последующими состояниями Y при действиях Z — является ключевым для логического вывода и планирования в больших языковых моделях (LLM) и визуально-языковых моделях (VLM). Обучение таким моделям обычно требует дорогостоящих траекторий с размеченными действиями. Мы предлагаем SWIRL — фреймворк самообучения, который обучается на последовательностях, содержащих только состояния, рассматривая действия как латентную переменную и чередуя прямое моделирование мира (FWM) P_θ(Y|X,Z) и моделирование обратной динамики (IDM) Q_φ(Z|X,Y). SWIRL итерирует две фазы: (1) Вариационная максимизация информации, которая обновляет FWM для генерации последующих состояний, максимизирующих условную взаимную информацию с латентными действиями при заданных предыдущих состояниях, что поощряет идентифицируемую согласованность; и (2) Максимизация ELBO, которая обновляет IDM для объяснения наблюдаемых переходов, эффективно выполняя покоординатный подъем. Обе модели обучаются с подкреплением (в частности, с помощью GRPO), где логарифмическая вероятность противоположной замороженной модели используется как сигнал вознаграждения. Мы предоставляем теоретические гарантии обучаемости для обоих обновлений и оцениваем SWIRL на LLM и VLM в различных средах: одношаговые и многошаговые динамики в открытом визуальном мире, а также синтетические текстовые среды для физики, веба и вызова инструментов. SWIRL демонстрирует улучшения на 16% на AURORABench, 28% на ByteMorph, 16% на WorldPredictionBench и 14% на StableToolBench.

English

Internal modelling of the world -- predicting transitions between previous states X and next states Y under actions Z -- is essential to reasoning and planning for LLMs and VLMs. Learning such models typically requires costly action-labelled trajectories. We propose SWIRL, a self-improvement framework that learns from state-only sequences by treating actions as a latent variable and alternating between Forward World Modelling (FWM) P_θ(Y|X,Z) and an Inverse Dynamics Modelling (IDM) Q_φ(Z|X,Y). SWIRL iterates two phases: (1) Variational Information Maximisation, which updates the FWM to generate next states that maximise conditional mutual information with latent actions given prior states, encouraging identifiable consistency; and (2) ELBO Maximisation, which updates the IDM to explain observed transitions, effectively performing coordinate ascent. Both models are trained with reinforcement learning (specifically, GRPO) with the opposite frozen model's log-probability as a reward signal. We provide theoretical learnability guarantees for both updates, and evaluate SWIRL on LLMs and VLMs across multiple environments: single-turn and multi-turn open-world visual dynamics and synthetic textual environments for physics, web, and tool calling. SWIRL achieves gains of 16% on AURORABench, 28% on ByteMorph, 16% on WorldPredictionBench, and 14% on StableToolBench.

Самосовершенствующееся моделирование мира с помощью латентных действий

Self-Improving World Modelling with Latent Actions

Аннотация

Support