τ_0-WM: Ein einheitliches Video-Aktions-Weltmodell für die Robotermanipulation
τ_0-WM: A Unified Video-Action World Model for Robotic Manipulation
May 31, 2026
Autoren: Pengfei Zhou, Shengcong Chen, Di Chen, Jiaxu Wang, Rongjun Jin, Bingwen Zhu, Yike Pan, Songen Gu, Kuanning Wang, Shufeng Nan, Xingyu Qiu, Chenhao Qiu, Pu Yang, Yunuo Cai, Jianxiong Gao, Yifan Li, Yanwei Fu, Xiangyu Yue, Zhi Chen, Jianlan Luo
cs.AI
Zusammenfassung
Robotermanipulation erfordert Modelle, die ausführbare Aktionen generieren und gleichzeitig deren zukünftige Konsequenzen antizipieren und bewerten, bevor sie physisch ausgeführt werden. Wir stellen τ₀-World Model (τ₀-WM) vor, ein einheitliches Video-Aktions-Weltmodell, das Policy-Lernen, Videoprädiktion und Aktionsbewertung in einem einzigen zukunftsprädiktiven Rahmenwerk integriert. τ₀-WM basiert auf einem gemeinsamen Video-Diffusions-Backbone und bietet zwei komplementäre Schnittstellen. Erstens ein Video-Aktionsmodell, das aus Multi-View-Beobachtungen, Sprachinstruktionen und Roboterzustand gemeinsam zukünftige visuelle Latente und kontinuierliche Aktionsblöcke vorhersagt. Zweitens ein aktionskonditionierter Videosimulator, der Kandidatenaktionsblöcke in Multi-View-Zukünfte ausrollt und dichte Aufgabenfortschrittswerte vorhersagt. Das Modell wird auf etwa 27.300 Stunden echter Roboter-Teleoperation, UMI-artiger Interaktion, egozentrischer Humanvideos sowie Rollout- oder Fehlertrajektorien unter Verwendung modalspezifischer Supervisionsmasken trainiert. Zur Inferenzzeit nutzt τ₀-WM Berechnungen zur Laufzeit, um Aktionskandidaten zu sampeln, sie mittels Redenoising-Konsistenz zu bewerten und mittels simulatorbasierter Korrektur minderwertige Kandidaten zu verbessern. Bei anspruchsvollen langzeithorizontalen und feinkörnigen Roboter-Manipulationsaufgaben zeigt τ₀-WM überlegene Leistung im Vergleich zu anderen relevanten Basislinien.
English
Robotic manipulation requires models that generate executable actions while anticipating and evaluating their future consequences before physical execution. We present τ_0-World Model (τ_0-WM), a unified video-action world model that integrates policy learning, video prediction, and action evaluation within a single future-predictive framework. Built on a shared video diffusion backbone, τ_0-WM provides two complementary interfaces. First, a video action model jointly predicts future visual latents and continuous action chunks from multi-view observations, language instructions, and robot state. Second, an action-conditioned video simulator rolls out candidate action chunks into multi-view futures and predicts dense task-progress scores. The model is trained on approximately 27{,}300 hours of real-robot teleoperation, UMI-style interaction, egocentric human videos, and rollout or failure trajectories using modality-specific supervision masks. At inference time, τ_0-WM uses test-time computation to sample action candidates, rank them with re-denoising consistency, and invoke simulator-based rectification for low-quality candidates. On challenging long-horizon and fine-grained robotic manipulation tasks, τ_0-WM shows superior performance over other relevant baselines.