μ_0 : Un modèle du monde 3D évolutif à base de traces d'interaction

Résumé

Les modèles du monde qui capturent la manière dont les actions induisent des changements physiques permettent un apprentissage robotique scalable sans dépendre d'étiquettes d'actions spécifiques à l'incarnation. Les modèles vidéo dans l'espace pixel fournissent des a priori visuels étendus mais dépensent la capacité du modèle dans la reconstruction dense de l'apparence, tandis que les modèles d'action directs nécessitent des étiquettes spécifiques à l'incarnation qui entravent la scalabilité. Nous présentons μ₀, un modèle du monde scalable basé sur des traces 3D. Au lieu de prédire des pixels denses ou de modéliser directement les actions, μ₀ prévoit des trajectoires 3D lisses pour des points d'interaction saillants tels que les objets, les outils, les mains et les zones de contact, fournissant ainsi une interface de mouvement compacte et indépendante de l'incarnation. Pour permettre l'entraînement à partir de diverses sources vidéo, notre système TraceExtract extrait automatiquement une supervision 3D en sélectionnant des points clés, en construisant des traces globalement alignées et en associant des segments de mouvement à des légendes linguistiques hiérarchisées. Cette supervision de TraceExtract pré-entraîne μ₀ en combinant un backbone vision-langage pré-entraîné avec un expert de traces modulaire, qui représente chaque requête via des points de contrôle B-spline et prédit les traces futures. Les expériences montrent que μ₀ surpasse les bases de référence tant dans la prédiction de traces 2D que 3D, y compris les modèles de prédiction de traces et les méthodes VLM tokenisées. Parce que μ₀ est figé et réutilisable, il peut être associé à des experts d'action pour les incarnations robotiques en aval. Malgré un pré-entraînement sans action, les politiques conditionnées par les traces qui en résultent atteignent des performances compétitives avec les modèles VLA pré-entraînés avec supervision d'action, tels que π₀. Ces résultats établissent les traces 3D comme une représentation scalable et transférable pour la manipulation inter-incarnation.

English

World models that capture how actions induce physical change enable scalable robot learning without reliance on embodiment-specific action labels. Pixel-space video models provide broad visual priors but expend model capacity on dense appearance reconstruction, while direct action models require embodiment-specific labels that hinder scalability. We present μ_0, a scalable world model based on 3D traces. Rather than predicting dense pixels or directly modeling actions, μ_0 forecasts smooth 3D trajectories for salient interaction points such as objects, tools, hands, and contact regions, yielding a compact, embodiment-agnostic motion interface. To enable training from diverse video sources, our TraceExtract system automatically extracts 3D supervision by selecting keypoints, constructing globally aligned traces, and associating motion segments with hierarchical language captions. This TraceExtract supervision pretrains μ_0 by combining a pretrained vision-language backbone with a modular trace expert, which represents each query via B-spline control points and predicts future traces. Experiments show that μ_0 outperforms baselines in both 2D and 3D trace prediction, including trace prediction models and tokenized VLM methods. Because μ_0 is frozen and reusable, it can be paired with action experts for downstream robot embodiments. Despite action-free pretraining, the resulting trace-conditioned policies achieve performance competitive with VLA models pretrained with action supervision, such as π_0. These results establish 3D traces as a scalable and transferable representation for cross-embodiment manipulation.