Контекстное моделирование мира для управления роботами

Аннотация

Современные модели типа Видение-Язык-Действие (VLA) часто не способны обобщаться на новые конфигурации, такие как изменённые точки обзора камеры или морфология робота, поскольку они обычно обусловлены только текущими наблюдениями и языковыми инструкциями. Игнорируя базовую конфигурацию системы как переменную, эти модели неявно предполагают фиксированный контекст выполнения, встречающийся во время обучения, что требует ресурсоёмкой тонкой настройки для каждой новой среды. В данной работе мы представляем Контекстное Моделирование Мира (ICWM) — подход, который рассматривает идентификацию системы как задачу контекстной адаптации. ICWM позволяет политикам робота автономно выводить существенные переменные системы из короткой истории самостоятельных, не зависящих от задачи взаимодействий. В отличие от традиционного контекстного обучения, использующего демонстрации для указания, какую задачу выполнять, ICWM использует окно контекста для понимания того, как работает система. Обрабатывая эти взаимодействия до выполнения задачи, модель неявно улавливает динамику текущей системы, что позволяет адаптироваться к новым конфигурациям без обновления параметров. Обширные эксперименты в симуляции и на реальных роботизированных платформах демонстрируют, что ICWM значительно превосходит стандартные базовые модели VLA при работе с новыми точками обзора камеры.

English

Modern Vision-Language-Action (VLA) models often fail to generalize to novel setups, such as altered camera viewpoints or robot morphologies, because they are typically conditioned only on current observations and language instructions. By ignoring the underlying system configuration as a variable, these models implicitly assume a fixed execution context encountered during training, necessitating data-intensive fine-tuning for any new environment. In this work, we introduce In-Context World Modeling (ICWM), a framework that treats system identification as an in-context adaptation problem. ICWM enables robot policies to autonomously infer essential system variables from a short history of self-generated, task-agnostic interactions. Unlike traditional In-Context Learning that uses demonstrations to specify what task to perform, ICWM leverages the context window to understand how the system operates. By processing these interactions before task execution, the model implicitly captures the world dynamics of the current system, enabling adaptation to novel configurations without parameter updates. Extensive experiments in simulation and on real-world robot platforms demonstrate that ICWM significantly outperforms standard VLA baselines on novel camera viewpoints.