μ_0: Um Modelo de Mundo Escalável de Rastro de Interação 3D

Resumo

Modelos de mundo que capturam como ações induzem mudanças físicas permitem aprendizado escalável de robôs sem depender de rótulos de ação específicos ao corpo. Modelos de vídeo em espaço de pixels fornecem priores visuais amplos, mas consomem capacidade do modelo na reconstrução densa de aparência, enquanto modelos de ação direta exigem rótulos específicos ao corpo que dificultam a escalabilidade. Apresentamos μ_0, um modelo de mundo escalável baseado em traços 3D. Em vez de prever pixels densos ou modelar ações diretamente, o μ_0 prevê trajetórias 3D suaves para pontos de interação salientes, como objetos, ferramentas, mãos e regiões de contato, resultando em uma interface de movimento compacta e agnóstica ao corpo. Para permitir o treinamento a partir de diversas fontes de vídeo, nosso sistema TraceExtract extrai automaticamente supervisão 3D selecionando pontos-chave, construindo traços alinhados globalmente e associando segmentos de movimento a legendas de linguagem hierárquicas. Essa supervisão do TraceExtract pré-treina o μ_0 combinando um backbone de visão-linguagem pré-treinado com um especialista modular em traços, que representa cada consulta por meio de pontos de controle B-spline e prevê traços futuros. Experimentos mostram que o μ_0 supera as linhas de base tanto na previsão de traços 2D quanto 3D, incluindo modelos de previsão de traços e métodos VLM tokenizados. Como o μ_0 é congelado e reutilizável, pode ser combinado com especialistas em ação para corpos robóticos downstream. Apesar do pré-treinamento sem ação, as políticas condicionadas a traços resultantes alcançam desempenho competitivo com modelos VLA pré-treinados com supervisão de ação, como o π_0. Esses resultados estabelecem traços 3D como uma representação escalável e transferível para manipulação entre corpos.

English

World models that capture how actions induce physical change enable scalable robot learning without reliance on embodiment-specific action labels. Pixel-space video models provide broad visual priors but expend model capacity on dense appearance reconstruction, while direct action models require embodiment-specific labels that hinder scalability. We present μ_0, a scalable world model based on 3D traces. Rather than predicting dense pixels or directly modeling actions, μ_0 forecasts smooth 3D trajectories for salient interaction points such as objects, tools, hands, and contact regions, yielding a compact, embodiment-agnostic motion interface. To enable training from diverse video sources, our TraceExtract system automatically extracts 3D supervision by selecting keypoints, constructing globally aligned traces, and associating motion segments with hierarchical language captions. This TraceExtract supervision pretrains μ_0 by combining a pretrained vision-language backbone with a modular trace expert, which represents each query via B-spline control points and predicts future traces. Experiments show that μ_0 outperforms baselines in both 2D and 3D trace prediction, including trace prediction models and tokenized VLM methods. Because μ_0 is frozen and reusable, it can be paired with action experts for downstream robot embodiments. Despite action-free pretraining, the resulting trace-conditioned policies achieve performance competitive with VLA models pretrained with action supervision, such as π_0. These results establish 3D traces as a scalable and transferable representation for cross-embodiment manipulation.