τ_0-WM: Ein einheitliches Video-Aktions-Weltmodell für die Robotermanipulation

Zusammenfassung

Robotermanipulation erfordert Modelle, die ausführbare Aktionen generieren und gleichzeitig deren zukünftige Konsequenzen antizipieren und bewerten, bevor sie physisch ausgeführt werden. Wir stellen τ₀-World Model (τ₀-WM) vor, ein einheitliches Video-Aktions-Weltmodell, das Policy-Lernen, Videoprädiktion und Aktionsbewertung in einem einzigen zukunftsprädiktiven Rahmenwerk integriert. τ₀-WM basiert auf einem gemeinsamen Video-Diffusions-Backbone und bietet zwei komplementäre Schnittstellen. Erstens ein Video-Aktionsmodell, das aus Multi-View-Beobachtungen, Sprachinstruktionen und Roboterzustand gemeinsam zukünftige visuelle Latente und kontinuierliche Aktionsblöcke vorhersagt. Zweitens ein aktionskonditionierter Videosimulator, der Kandidatenaktionsblöcke in Multi-View-Zukünfte ausrollt und dichte Aufgabenfortschrittswerte vorhersagt. Das Modell wird auf etwa 27.300 Stunden echter Roboter-Teleoperation, UMI-artiger Interaktion, egozentrischer Humanvideos sowie Rollout- oder Fehlertrajektorien unter Verwendung modalspezifischer Supervisionsmasken trainiert. Zur Inferenzzeit nutzt τ₀-WM Berechnungen zur Laufzeit, um Aktionskandidaten zu sampeln, sie mittels Redenoising-Konsistenz zu bewerten und mittels simulatorbasierter Korrektur minderwertige Kandidaten zu verbessern. Bei anspruchsvollen langzeithorizontalen und feinkörnigen Roboter-Manipulationsaufgaben zeigt τ₀-WM überlegene Leistung im Vergleich zu anderen relevanten Basislinien.

English

Robotic manipulation requires models that generate executable actions while anticipating and evaluating their future consequences before physical execution. We present τ_0-World Model (τ_0-WM), a unified video-action world model that integrates policy learning, video prediction, and action evaluation within a single future-predictive framework. Built on a shared video diffusion backbone, τ_0-WM provides two complementary interfaces. First, a video action model jointly predicts future visual latents and continuous action chunks from multi-view observations, language instructions, and robot state. Second, an action-conditioned video simulator rolls out candidate action chunks into multi-view futures and predicts dense task-progress scores. The model is trained on approximately 27{,}300 hours of real-robot teleoperation, UMI-style interaction, egocentric human videos, and rollout or failure trajectories using modality-specific supervision masks. At inference time, τ_0-WM uses test-time computation to sample action candidates, rank them with re-denoising consistency, and invoke simulator-based rectification for low-quality candidates. On challenging long-horizon and fine-grained robotic manipulation tasks, τ_0-WM shows superior performance over other relevant baselines.