τ_0-WM: Um Modelo de Mundo Unificado de Vídeo-Ação para Manipulação Robótica
τ_0-WM: A Unified Video-Action World Model for Robotic Manipulation
May 31, 2026
Autores: Pengfei Zhou, Shengcong Chen, Di Chen, Jiaxu Wang, Rongjun Jin, Bingwen Zhu, Yike Pan, Songen Gu, Kuanning Wang, Shufeng Nan, Xingyu Qiu, Chenhao Qiu, Pu Yang, Yunuo Cai, Jianxiong Gao, Yifan Li, Yanwei Fu, Xiangyu Yue, Zhi Chen, Jianlan Luo
cs.AI
Resumo
A manipulação robótica requer modelos que gerem ações executáveis enquanto antecipam e avaliam suas consequências futuras antes da execução física. Apresentamos o τ_0-World Model (τ_0-WM), um modelo mundial de vídeo-ação unificado que integra aprendizado de políticas, predição de vídeo e avaliação de ações em um único arcabouço preditivo do futuro. Construído sobre um backbone de difusão de vídeo compartilhado, o τ_0-WM oferece duas interfaces complementares. Primeiro, um modelo de vídeo-ação prevê conjuntamente latentes visuais futuros e pedaços contínuos de ação a partir de observações multivisão, instruções em linguagem natural e estado do robô. Segundo, um simulador de vídeo condicionado à ação executa pedaços de ação candidatos em futuros multivisão e prediz pontuações densas de progresso da tarefa. O modelo é treinado em aproximadamente 27.300 horas de teleoperação real de robôs, interação no estilo UMI, vídeos humanos egocêntricos e trajetórias de execução ou falha, utilizando máscaras de supervisão específicas de modalidade. No tempo de inferência, o τ_0-WM usa computação em tempo de teste para amostrar candidatos a ação, classificá-los por consistência de re-denoising e invocar retificação baseada em simulador para candidatos de baixa qualidade. Em tarefas desafiadoras de manipulação robótica de longo horizonte e granularidade fina, o τ_0-WM apresenta desempenho superior em comparação com outras baselines relevantes.
English
Robotic manipulation requires models that generate executable actions while anticipating and evaluating their future consequences before physical execution. We present τ_0-World Model (τ_0-WM), a unified video-action world model that integrates policy learning, video prediction, and action evaluation within a single future-predictive framework. Built on a shared video diffusion backbone, τ_0-WM provides two complementary interfaces. First, a video action model jointly predicts future visual latents and continuous action chunks from multi-view observations, language instructions, and robot state. Second, an action-conditioned video simulator rolls out candidate action chunks into multi-view futures and predicts dense task-progress scores. The model is trained on approximately 27{,}300 hours of real-robot teleoperation, UMI-style interaction, egocentric human videos, and rollout or failure trajectories using modality-specific supervision masks. At inference time, τ_0-WM uses test-time computation to sample action candidates, rank them with re-denoising consistency, and invoke simulator-based rectification for low-quality candidates. On challenging long-horizon and fine-grained robotic manipulation tasks, τ_0-WM shows superior performance over other relevant baselines.