Lernen von visuellen merkmalsbasierten Weltmodellen mittels residualer latenter Aktionen
Learning Visual Feature-Based World Models via Residual Latent Action
May 8, 2026
Autoren: Xinyu Zhang, Zhengtong Xu, Yutian Tao, Yeping Wang, Yu She, Abdeslam Boularias
cs.AI
Zusammenfassung
Weltmodelle sagen zukünftige Übergänge aus Beobachtungen und Aktionen vorher. Bestehende Arbeiten konzentrieren sich hauptsächlich ausschließlich auf die Bildgenerierung. Visuelle merkmalsbasierte Weltmodelle sagen dagegen zukünftige visuelle Merkmale anstelle von rohen Videopixeln vorher und bieten eine vielversprechende Alternative, die effizienter und weniger anfällig für Halluzinationen ist. Allerdings beruhen aktuelle merkmalsbasierte Ansätze auf direkter Regression, was bei komplexen Interaktionen zu unscharfen oder kollabierten Vorhersagen führt, während generatives Modellieren in hochdimensionalen Merkmalsräumen weiterhin herausfordernd bleibt. In dieser Arbeit entdecken wir, dass eine neue Art latenter Aktionsrepräsentation, die wir als *Residual Latent Action* (RLA) bezeichnen, leicht aus DINO-Residuen gelernt werden kann. Wir zeigen auch, dass RLA prädiktiv, generalisierbar ist und zeitlichen Fortschritt kodiert. Aufbauend auf RLA schlagen wir das *RLA-Weltmodell* (RLA-WM) vor, das RLA-Werte durch Flow-Matching vorhersagt. RLA-WM übertrifft sowohl hochmoderne merkmalsbasierte als auch Videodiffusions-Weltmodelle auf Simulations- und realen Datensätzen und ist dabei um Größenordnungen schneller als Videodiffusion. Darüber hinaus entwickeln wir zwei Roboterlerntechniken, die RLA-WM nutzen, um das Policylernen zu verbessern. Die erste ist ein minimalistisches Weltaktionsmodell mit RLA, das aus aktionslosen Demonstrationsvideos lernt. Die zweite ist das erste visuelle RL-Framework, das vollständig innerhalb eines Weltmodells trainiert wird, das nur aus Offline-Videos gelernt wurde, unter Verwendung einer videoangepassten Belohnung und ohne Online-Interaktionen oder handgefertigte Belohnungen. Projektseite: https://mlzxy.github.io/rla-wm
English
World models predict future transitions from observations and actions. Existing works predominantly focus on image generation only. Visual feature-based world models, on the other hand, predict future visual features instead of raw video pixels, offering a promising alternative that is more efficient and less prone to hallucination. However, current feature-based approaches rely on direct regression, which leads to blurry or collapsed predictions in complex interactions, while generative modeling in high-dimensional feature spaces still remains challenging. In this work, we discover that a new type of latent action representation, which we refer to as *Residual Latent Action* (RLA), can be easily learned from DINO residuals. We also show that RLA is predictive, generalizable, and encodes temporal progression. Building on RLA, we propose *RLA World Model* (RLA-WM), which predicts RLA values via flow matching. RLA-WM outperforms both state-of-the-art feature-based and video-diffusion world models on simulation and real-world datasets, while being orders of magnitude faster than video diffusion. Furthermore, we develop two robot learning techniques that use RLA-WM to improve policy learning. The first one is a minimalist world action model with RLA that learns from actionless demonstration videos. The second one is the first visual RL framework trained entirely inside a world model learned from offline videos only, using a video-aligned reward and no online interactions or handcrafted rewards. Project page: https://mlzxy.github.io/rla-wm