μ_0: Een schaalbaar 3D-interactietrace-wereldmodel

Samenvatting

Wereldmodellen die vastleggen hoe acties fysieke veranderingen teweegbrengen, maken schaalbaar robotleren mogelijk zonder afhankelijk te zijn van belichaamingsspecifieke actielabels. Pixel-ruimte videomodellen bieden brede visuele voorkennis, maar besteden modelcapaciteit aan dichte verschijningsreconstructie, terwijl directe actiemodellen belichaamingsspecifieke labels vereisen die de schaalbaarheid belemmeren. We presenteren μ_0, een schaalbaar wereldmodel gebaseerd op 3D-sporen. In plaats van dichte pixels te voorspellen of acties direct te modelleren, voorspelt μ_0 vloeiende 3D-trajecten voor opvallende interactiepunten zoals objecten, gereedschappen, handen en contactregio's, wat resulteert in een compacte, belichaamingsagnostische bewegingsinterface. Om training uit diverse videobronnen mogelijk te maken, extraheert ons TraceExtract-systeem automatisch 3D-supervisie door keypoints te selecteren, globaal uitgelijnde sporen te construeren en bewegingssegmenten te associëren met hiërarchische taalonderschriften. Deze TraceExtract-supervisie traint μ_0 vooraf door een voorgetraind visie-taal-backbone te combineren met een modulaire sporenexpert, die elke query representeert via B-spline-controlepunten en toekomstige sporen voorspelt. Experimenten tonen aan dat μ_0 beter presteert dan baselines in zowel 2D- als 3D-spoorvoorspelling, inclusief spoorvoorspellingsmodellen en getokeniseerde VLM-methoden. Omdat μ_0 bevroren en herbruikbaar is, kan het worden gekoppeld aan actie-experts voor stroomafwaartse robotbelichamingen. Ondanks actievrije voortraining presteren de resulterende spoorgeconditioneerde beleidsregels concurrerend met VLA-modellen die zijn voortgetraind met actiesupervisie, zoals π_0. Deze resultaten vestigen 3D-sporen als een schaalbare en overdraagbare representatie voor cross-embodiment-manipulatie.

English

World models that capture how actions induce physical change enable scalable robot learning without reliance on embodiment-specific action labels. Pixel-space video models provide broad visual priors but expend model capacity on dense appearance reconstruction, while direct action models require embodiment-specific labels that hinder scalability. We present μ_0, a scalable world model based on 3D traces. Rather than predicting dense pixels or directly modeling actions, μ_0 forecasts smooth 3D trajectories for salient interaction points such as objects, tools, hands, and contact regions, yielding a compact, embodiment-agnostic motion interface. To enable training from diverse video sources, our TraceExtract system automatically extracts 3D supervision by selecting keypoints, constructing globally aligned traces, and associating motion segments with hierarchical language captions. This TraceExtract supervision pretrains μ_0 by combining a pretrained vision-language backbone with a modular trace expert, which represents each query via B-spline control points and predicts future traces. Experiments show that μ_0 outperforms baselines in both 2D and 3D trace prediction, including trace prediction models and tokenized VLM methods. Because μ_0 is frozen and reusable, it can be paired with action experts for downstream robot embodiments. Despite action-free pretraining, the resulting trace-conditioned policies achieve performance competitive with VLA models pretrained with action supervision, such as π_0. These results establish 3D traces as a scalable and transferable representation for cross-embodiment manipulation.