τ_0-WM: Een geünificeerd video-actie wereldmodel voor robotmanipulatie

Samenvatting

Robotmanipulatie vereist modellen die uitvoerbare acties genereren terwijl ze hun toekomstige gevolgen anticiperen en evalueren voordat fysieke uitvoering plaatsvindt. Wij presenteren τ₀-World Model (τ₀-WM), een verenigd video-actie wereldmodel dat beleidsleren, videovoorspelling en actie-evaluatie integreert binnen één toekomstvoorspellend raamwerk. Gebouwd op een gedeelde videodiffusie-backbone biedt τ₀-WM twee complementaire interfaces. Ten eerste een video-actiemodel dat gezamenlijk toekomstige visuele latenten en continue actiebrokken voorspelt op basis van multi-view observaties, taalinstructies en robottoestand. Ten tweede een actie-geconditioneerde videosimulator die kandidaat-actiebrokken uitrolt naar multi-view toekomsten en dichte taakvoortgangsscores voorspelt. Het model wordt getraind op ongeveer 27.300 uur aan echte robotteleoperatie, UMI-stijl interactie, egocentrische menselijke video's en uitrol- of faaltrajecten, gebruikmakend van modaliteit-specifieke supervisiemaskers. Tijdens inferentie gebruikt τ₀-WM testtijdberekening om actiekandidaten te samplen, deze te rangschikken op basis van herontruisconsistentie, en simulator-gebaseerde rectificatie in te roepen voor kandidaten van lage kwaliteit. Bij uitdagende robotmanipulatietaken met een lange horizon en fijnmazige eisen toont τ₀-WM superieure prestaties ten opzichte van andere relevante baselines.

English

Robotic manipulation requires models that generate executable actions while anticipating and evaluating their future consequences before physical execution. We present τ_0-World Model (τ_0-WM), a unified video-action world model that integrates policy learning, video prediction, and action evaluation within a single future-predictive framework. Built on a shared video diffusion backbone, τ_0-WM provides two complementary interfaces. First, a video action model jointly predicts future visual latents and continuous action chunks from multi-view observations, language instructions, and robot state. Second, an action-conditioned video simulator rolls out candidate action chunks into multi-view futures and predicts dense task-progress scores. The model is trained on approximately 27{,}300 hours of real-robot teleoperation, UMI-style interaction, egocentric human videos, and rollout or failure trajectories using modality-specific supervision masks. At inference time, τ_0-WM uses test-time computation to sample action candidates, rank them with re-denoising consistency, and invoke simulator-based rectification for low-quality candidates. On challenging long-horizon and fine-grained robotic manipulation tasks, τ_0-WM shows superior performance over other relevant baselines.