Обучение моделей мира на основе визуальных признаков с помощью остаточного латентного действия
Learning Visual Feature-Based World Models via Residual Latent Action
May 8, 2026
Авторы: Xinyu Zhang, Zhengtong Xu, Yutian Tao, Yeping Wang, Yu She, Abdeslam Boularias
cs.AI
Аннотация
Модели мира предсказывают будущие переходы на основе наблюдений и действий. Существующие работы в основном сосредоточены только на генерации изображений. Модели мира, основанные на визуальных признаках, в свою очередь, предсказывают будущие визуальные признаки вместо сырых видеопикселей, предлагая перспективную альтернативу, которая является более эффективной и менее склонной к галлюцинациям. Однако современные подходы, основанные на признаках, опираются на прямую регрессию, что приводит к размытым или разрушенным предсказаниям в сложных взаимодействиях, в то время как генеративное моделирование в многомерных пространствах признаков по-прежнему остается сложной задачей. В данной работе мы обнаружили, что новый тип представления скрытых действий, который мы называем *остаточным скрытым действием* (RLA), может быть легко изучен из остатков DINO. Мы также показываем, что RLA является предсказуемым, обобщаемым и кодирует временную прогрессию. Основываясь на RLA, мы предлагаем *RLA-модель мира* (RLA-WM), которая предсказывает значения RLA с помощью согласования потоков. RLA-WM превосходит как современные модели мира, основанные на признаках, так и видео-диффузионные модели мира на наборах данных из симуляции и реального мира, при этом работая на несколько порядков быстрее, чем видео-диффузия. Кроме того, мы разрабатываем два метода обучения роботов, использующих RLA-WM для улучшения обучения политикам. Первый — минималистичная модель мира с действиями на основе RLA, которая обучается на демонстрационных видео без действий. Второй — первая структура визуального обучения с подкреплением, полностью обученная внутри модели мира, полученной только из офлайн-видео, с использованием выровненного с видео вознаграждения и без онлайн-взаимодействий или вручную заданных вознаграждений. Страница проекта: https://mlzxy.github.io/rla-wm
English
World models predict future transitions from observations and actions. Existing works predominantly focus on image generation only. Visual feature-based world models, on the other hand, predict future visual features instead of raw video pixels, offering a promising alternative that is more efficient and less prone to hallucination. However, current feature-based approaches rely on direct regression, which leads to blurry or collapsed predictions in complex interactions, while generative modeling in high-dimensional feature spaces still remains challenging. In this work, we discover that a new type of latent action representation, which we refer to as *Residual Latent Action* (RLA), can be easily learned from DINO residuals. We also show that RLA is predictive, generalizable, and encodes temporal progression. Building on RLA, we propose *RLA World Model* (RLA-WM), which predicts RLA values via flow matching. RLA-WM outperforms both state-of-the-art feature-based and video-diffusion world models on simulation and real-world datasets, while being orders of magnitude faster than video diffusion. Furthermore, we develop two robot learning techniques that use RLA-WM to improve policy learning. The first one is a minimalist world action model with RLA that learns from actionless demonstration videos. The second one is the first visual RL framework trained entirely inside a world model learned from offline videos only, using a video-aligned reward and no online interactions or handcrafted rewards. Project page: https://mlzxy.github.io/rla-wm