Apprentissage de modèles du monde basés sur des caractéristiques visuelles via l'action latente résiduelle

Résumé

Les modèles du monde prédisent les transitions futures à partir d'observations et d'actions. Les travaux existants se concentrent principalement sur la génération d'images uniquement. Les modèles du monde basés sur des caractéristiques visuelles, en revanche, prédisent les caractéristiques visuelles futures au lieu des pixels vidéo bruts, offrant ainsi une alternative prometteuse, plus efficace et moins sujette aux hallucinations. Cependant, les approches actuelles fondées sur les caractéristiques reposent sur une régression directe, ce qui conduit à des prédictions floues ou effondrées dans des interactions complexes, tandis que la modélisation générative dans des espaces de caractéristiques de haute dimension reste difficile. Dans ce travail, nous découvrons qu'un nouveau type de représentation d'action latente, que nous appelons *Action Latente Résiduelle* (RLA), peut être facilement appris à partir des résidus de DINO. Nous montrons également que RLA est prédictive, généralisable et encode la progression temporelle. En nous appuyant sur RLA, nous proposons le *Modèle du Monde RLA* (RLA-WM), qui prédit les valeurs RLA via un *flow matching*. RLA-WM surpasse à la fois les modèles du monde basés sur les caractéristiques et ceux utilisant la diffusion vidéo, sur des ensembles de données simulées et réelles, tout en étant des ordres de grandeur plus rapide que la diffusion vidéo. De plus, nous développons deux techniques d'apprentissage robotique qui utilisent RLA-WM pour améliorer l'apprentissage des politiques. La première est un modèle d'action mondiale minimaliste avec RLA qui apprend à partir de vidéos de démonstration sans actions. La seconde est le premier cadre d'apprentissage par renforcement visuel entièrement entraîné à l'intérieur d'un modèle du monde appris uniquement à partir de vidéos hors ligne, utilisant une récompense alignée sur la vidéo et sans interactions en ligne ni récompenses faites à la main. Page du projet : https://mlzxy.github.io/rla-wm

English

World models predict future transitions from observations and actions. Existing works predominantly focus on image generation only. Visual feature-based world models, on the other hand, predict future visual features instead of raw video pixels, offering a promising alternative that is more efficient and less prone to hallucination. However, current feature-based approaches rely on direct regression, which leads to blurry or collapsed predictions in complex interactions, while generative modeling in high-dimensional feature spaces still remains challenging. In this work, we discover that a new type of latent action representation, which we refer to as *Residual Latent Action* (RLA), can be easily learned from DINO residuals. We also show that RLA is predictive, generalizable, and encodes temporal progression. Building on RLA, we propose *RLA World Model* (RLA-WM), which predicts RLA values via flow matching. RLA-WM outperforms both state-of-the-art feature-based and video-diffusion world models on simulation and real-world datasets, while being orders of magnitude faster than video diffusion. Furthermore, we develop two robot learning techniques that use RLA-WM to improve policy learning. The first one is a minimalist world action model with RLA that learns from actionless demonstration videos. The second one is the first visual RL framework trained entirely inside a world model learned from offline videos only, using a video-aligned reward and no online interactions or handcrafted rewards. Project page: https://mlzxy.github.io/rla-wm

Apprentissage de modèles du monde basés sur des caractéristiques visuelles via l'action latente résiduelle

Learning Visual Feature-Based World Models via Residual Latent Action

Résumé

Support