τ_0-WM: Een geünificeerd video-actie wereldmodel voor robotmanipulatie
τ_0-WM: A Unified Video-Action World Model for Robotic Manipulation
May 31, 2026
Auteurs: Pengfei Zhou, Shengcong Chen, Di Chen, Jiaxu Wang, Rongjun Jin, Bingwen Zhu, Yike Pan, Songen Gu, Kuanning Wang, Shufeng Nan, Xingyu Qiu, Chenhao Qiu, Pu Yang, Yunuo Cai, Jianxiong Gao, Yifan Li, Yanwei Fu, Xiangyu Yue, Zhi Chen, Jianlan Luo
cs.AI
Samenvatting
Robotmanipulatie vereist modellen die uitvoerbare acties genereren terwijl ze hun toekomstige gevolgen anticiperen en evalueren voordat fysieke uitvoering plaatsvindt. Wij presenteren τ₀-World Model (τ₀-WM), een verenigd video-actie wereldmodel dat beleidsleren, videovoorspelling en actie-evaluatie integreert binnen één toekomstvoorspellend raamwerk. Gebouwd op een gedeelde videodiffusie-backbone biedt τ₀-WM twee complementaire interfaces. Ten eerste een video-actiemodel dat gezamenlijk toekomstige visuele latenten en continue actiebrokken voorspelt op basis van multi-view observaties, taalinstructies en robottoestand. Ten tweede een actie-geconditioneerde videosimulator die kandidaat-actiebrokken uitrolt naar multi-view toekomsten en dichte taakvoortgangsscores voorspelt. Het model wordt getraind op ongeveer 27.300 uur aan echte robotteleoperatie, UMI-stijl interactie, egocentrische menselijke video's en uitrol- of faaltrajecten, gebruikmakend van modaliteit-specifieke supervisiemaskers. Tijdens inferentie gebruikt τ₀-WM testtijdberekening om actiekandidaten te samplen, deze te rangschikken op basis van herontruisconsistentie, en simulator-gebaseerde rectificatie in te roepen voor kandidaten van lage kwaliteit. Bij uitdagende robotmanipulatietaken met een lange horizon en fijnmazige eisen toont τ₀-WM superieure prestaties ten opzichte van andere relevante baselines.
English
Robotic manipulation requires models that generate executable actions while anticipating and evaluating their future consequences before physical execution. We present τ_0-World Model (τ_0-WM), a unified video-action world model that integrates policy learning, video prediction, and action evaluation within a single future-predictive framework. Built on a shared video diffusion backbone, τ_0-WM provides two complementary interfaces. First, a video action model jointly predicts future visual latents and continuous action chunks from multi-view observations, language instructions, and robot state. Second, an action-conditioned video simulator rolls out candidate action chunks into multi-view futures and predicts dense task-progress scores. The model is trained on approximately 27{,}300 hours of real-robot teleoperation, UMI-style interaction, egocentric human videos, and rollout or failure trajectories using modality-specific supervision masks. At inference time, τ_0-WM uses test-time computation to sample action candidates, rank them with re-denoising consistency, and invoke simulator-based rectification for low-quality candidates. On challenging long-horizon and fine-grained robotic manipulation tasks, τ_0-WM shows superior performance over other relevant baselines.