τ_0-WM: Um Modelo de Mundo Unificado de Vídeo-Ação para Manipulação Robótica

Resumo

A manipulação robótica requer modelos que gerem ações executáveis enquanto antecipam e avaliam suas consequências futuras antes da execução física. Apresentamos o τ_0-World Model (τ_0-WM), um modelo mundial de vídeo-ação unificado que integra aprendizado de políticas, predição de vídeo e avaliação de ações em um único arcabouço preditivo do futuro. Construído sobre um backbone de difusão de vídeo compartilhado, o τ_0-WM oferece duas interfaces complementares. Primeiro, um modelo de vídeo-ação prevê conjuntamente latentes visuais futuros e pedaços contínuos de ação a partir de observações multivisão, instruções em linguagem natural e estado do robô. Segundo, um simulador de vídeo condicionado à ação executa pedaços de ação candidatos em futuros multivisão e prediz pontuações densas de progresso da tarefa. O modelo é treinado em aproximadamente 27.300 horas de teleoperação real de robôs, interação no estilo UMI, vídeos humanos egocêntricos e trajetórias de execução ou falha, utilizando máscaras de supervisão específicas de modalidade. No tempo de inferência, o τ_0-WM usa computação em tempo de teste para amostrar candidatos a ação, classificá-los por consistência de re-denoising e invocar retificação baseada em simulador para candidatos de baixa qualidade. Em tarefas desafiadoras de manipulação robótica de longo horizonte e granularidade fina, o τ_0-WM apresenta desempenho superior em comparação com outras baselines relevantes.

English

Robotic manipulation requires models that generate executable actions while anticipating and evaluating their future consequences before physical execution. We present τ_0-World Model (τ_0-WM), a unified video-action world model that integrates policy learning, video prediction, and action evaluation within a single future-predictive framework. Built on a shared video diffusion backbone, τ_0-WM provides two complementary interfaces. First, a video action model jointly predicts future visual latents and continuous action chunks from multi-view observations, language instructions, and robot state. Second, an action-conditioned video simulator rolls out candidate action chunks into multi-view futures and predicts dense task-progress scores. The model is trained on approximately 27{,}300 hours of real-robot teleoperation, UMI-style interaction, egocentric human videos, and rollout or failure trajectories using modality-specific supervision masks. At inference time, τ_0-WM uses test-time computation to sample action candidates, rank them with re-denoising consistency, and invoke simulator-based rectification for low-quality candidates. On challenging long-horizon and fine-grained robotic manipulation tasks, τ_0-WM shows superior performance over other relevant baselines.