τ_0-WM: Un Modelo de Mundo Unificado de Video-Acción para Manipulación Robótica

Resumen

La manipulación robótica requiere modelos que generen acciones ejecutables mientras anticipan y evalúan sus consecuencias futuras antes de la ejecución física. Presentamos τ_0-World Model (τ_0-WM), un modelo mundial unificado de video-acción que integra aprendizaje de políticas, predicción de video y evaluación de acciones dentro de un único marco de predicción futura. Construido sobre un backbone compartido de difusión de video, τ_0-WM proporciona dos interfaces complementarias. Primero, un modelo de acción de video que predice conjuntamente latentes visuales futuros y fragmentos de acción continuos a partir de observaciones multivista, instrucciones en lenguaje y el estado del robot. Segundo, un simulador de video condicionado por acciones que despliega fragmentos de acción candidatos en futuros multivista y predice puntuaciones densas de progreso de la tarea. El modelo se entrena con aproximadamente 27.300 horas de teleoperación real de robots, interacción al estilo UMI, videos humanos egocéntricos y trayectorias de despliegue o fallo, utilizando máscaras de supervisión específicas de la modalidad. En tiempo de inferencia, τ_0-WM emplea cómputo en tiempo de prueba para muestrear candidatos de acción, clasificarlos según consistencia de re-denoising e invocar la rectificación basada en el simulador para candidatos de baja calidad. En tareas desafiantes de manipulación robótica de largo horizonte y grano fino, τ_0-WM muestra un rendimiento superior en comparación con otras líneas base relevantes.

English

Robotic manipulation requires models that generate executable actions while anticipating and evaluating their future consequences before physical execution. We present τ_0-World Model (τ_0-WM), a unified video-action world model that integrates policy learning, video prediction, and action evaluation within a single future-predictive framework. Built on a shared video diffusion backbone, τ_0-WM provides two complementary interfaces. First, a video action model jointly predicts future visual latents and continuous action chunks from multi-view observations, language instructions, and robot state. Second, an action-conditioned video simulator rolls out candidate action chunks into multi-view futures and predicts dense task-progress scores. The model is trained on approximately 27{,}300 hours of real-robot teleoperation, UMI-style interaction, egocentric human videos, and rollout or failure trajectories using modality-specific supervision masks. At inference time, τ_0-WM uses test-time computation to sample action candidates, rank them with re-denoising consistency, and invoke simulator-based rectification for low-quality candidates. On challenging long-horizon and fine-grained robotic manipulation tasks, τ_0-WM shows superior performance over other relevant baselines.