WEAVER, Meilleur, Plus Rapide, Plus Long : un modèle du monde efficace pour la manipulation robotique

Résumé

Les impacts potentiels des modèles du monde (WMs, c’est-à-dire des simulateurs appris) sur la robotique sont considérables — évaluation de politiques, amélioration de politiques et planification au moment du test — le tout avec une interaction limitée avec le monde réel. Pour débloquer ces capacités en aval, un modèle du monde doit satisfaire conjointement trois exigences : (i) la fidélité (produire des trajectoires simulées corrélées avec la réalité), (ii) la cohérence (produire des trajectoires simulées cohérentes sur de longs horizons) et (iii) l’efficacité (produire des trajectoires simulées rapidement). Nous proposons WEAVER (World Estimation Across Views for Embodied Reasoning) : une architecture de modèle du monde qui atteint simultanément ces trois exigences, obtenant des résultats de pointe sur des tâches de manipulation robotique. WEAVER est un modèle du monde multi-vue entraîné à prédire les latents futurs et les valeurs de récompense via une perte de flow-matching. Nous distillons les décisions de conception clés concernant l’architecture du modèle, la mémoire et les objectifs de prédiction nécessaires pour débloquer les tâches de manipulation dynamique à long horizon qui ont mis en échec les approches antérieures de modélisation du monde. Nous appliquons WEAVER sur du matériel robotique, démontrant son efficacité pour l’évaluation de politiques (corrélation ρ=0,870 avec le taux de succès réel), l’amélioration de politiques (amélioration du taux de succès réel de 38% par rapport au modèle fondation robotique π_{0.5}) et la planification au moment du test (amélioration du taux de succès réel de 14% avec une accélération de 5 à 10 fois par rapport aux WMs antérieurs). WEAVER montre également de meilleures performances que les WMs antérieurs lorsqu’il est évalué sur des scénarios hors distribution. Code, modèles et vidéos sur : https://arnavkj1995.github.io/WEAVER/ .

English

The potential impacts of world models (WMs, i.e., learned simulators) on robotics are far-reaching -- policy evaluation, policy improvement, and test-time planning -- all with limited real-world interaction. To unlock these downstream capabilities, a WM needs to jointly satisfy three desiderata: (i) fidelity (i.e., producing simulated trajectories that correlate with reality), (ii) consistency (i.e., producing simulated trajectories that are coherent over long horizons), and (iii) efficiency (i.e., producing simulated trajectories quickly). We propose WEAVER (World Estimation Across Views for Embodied Reasoning): a WM architecture that simultaneously achieves all three desiderata, providing state-of-the-art results on robotic manipulation tasks. WEAVER is a multi-view WM trained to predict future latents and reward values via a flow-matching loss. We distill the key design decisions across model architecture, memory, and prediction objectives required to unlock the kinds of long-horizon dynamic manipulation tasks that have confounded prior world modeling approaches. We apply WEAVER in robotic hardware, demonstrating its effectiveness at policy evaluation (ρ=0.870 correlation with real-world success rate), policy improvement (real-world success rate improvement of 38% on top of the π_{0.5} robot foundation model), and test-time planning (real-world success rate improvement of 14% with a 5-10times speedup over prior WMs). WEAVER also demonstrates better performance than prior WMs when evaluated on out-of-distribution scenarios. Code, models, and videos at: https://arnavkj1995.github.io/WEAVER/ .