Leren van op visuele kenmerken gebaseerde wereldmodellen via residuele latente actie
Learning Visual Feature-Based World Models via Residual Latent Action
May 8, 2026
Auteurs: Xinyu Zhang, Zhengtong Xu, Yutian Tao, Yeping Wang, Yu She, Abdeslam Boularias
cs.AI
Samenvatting
Wereldmodellen voorspellen toekomstige overgangen op basis van waarnemingen en acties. Bestaand werk richt zich voornamelijk op alleen beeldgeneratie. Op visuele kenmerken gebaseerde wereldmodellen daarentegen voorspellen toekomstige visuele kenmerken in plaats van ruwe videopixels, wat een veelbelovend alternatief biedt dat efficiënter is en minder vatbaar voor hallucinatie. Huidige op kenmerken gebaseerde benaderingen vertrouwen echter op directe regressie, wat leidt tot wazige of ingestorte voorspellingen bij complexe interacties, terwijl generatieve modellering in hoogdimensionale kenmerkruimten nog steeds uitdagend blijft. In dit werk ontdekken we dat een nieuw type latente actierepresentatie, die we *Residuele Latente Actie* (RLA) noemen, eenvoudig kan worden geleerd uit DINO-residuen. We tonen ook aan dat RLA voorspellend, generaliseerbaar is en temporele progressie codeert. Voortbouwend op RLA stellen we *RLA Wereldmodel* (RLA-WM) voor, dat RLA-waarden voorspelt via stroommatching. RLA-WM presteert beter dan zowel state-of-the-art op kenmerken gebaseerde als videodiffusie-wereldmodellen op simulatie- en real-world datasets, terwijl het ordes van grootte sneller is dan videodiffusie. Verder ontwikkelen we twee robotleertechnieken die RLA-WM gebruiken om beleidsleren te verbeteren. De eerste is een minimalistisch wereldactiemodel met RLA dat leert van actieloze demonstratievideo's. De tweede is het eerste visuele RL-raamwerk dat volledig is getraind binnen een wereldmodel dat alleen is geleerd uit offline video's, met behulp van een video-uitgelijnde beloning en zonder online interacties of handgemaakte beloningen. Projectpagina: https://mlzxy.github.io/rla-wm
English
World models predict future transitions from observations and actions. Existing works predominantly focus on image generation only. Visual feature-based world models, on the other hand, predict future visual features instead of raw video pixels, offering a promising alternative that is more efficient and less prone to hallucination. However, current feature-based approaches rely on direct regression, which leads to blurry or collapsed predictions in complex interactions, while generative modeling in high-dimensional feature spaces still remains challenging. In this work, we discover that a new type of latent action representation, which we refer to as *Residual Latent Action* (RLA), can be easily learned from DINO residuals. We also show that RLA is predictive, generalizable, and encodes temporal progression. Building on RLA, we propose *RLA World Model* (RLA-WM), which predicts RLA values via flow matching. RLA-WM outperforms both state-of-the-art feature-based and video-diffusion world models on simulation and real-world datasets, while being orders of magnitude faster than video diffusion. Furthermore, we develop two robot learning techniques that use RLA-WM to improve policy learning. The first one is a minimalist world action model with RLA that learns from actionless demonstration videos. The second one is the first visual RL framework trained entirely inside a world model learned from offline videos only, using a video-aligned reward and no online interactions or handcrafted rewards. Project page: https://mlzxy.github.io/rla-wm