τ_0-WM: Единая модель мира видео-действий для роботизированного манипулирования
τ_0-WM: A Unified Video-Action World Model for Robotic Manipulation
May 31, 2026
Авторы: Pengfei Zhou, Shengcong Chen, Di Chen, Jiaxu Wang, Rongjun Jin, Bingwen Zhu, Yike Pan, Songen Gu, Kuanning Wang, Shufeng Nan, Xingyu Qiu, Chenhao Qiu, Pu Yang, Yunuo Cai, Jianxiong Gao, Yifan Li, Yanwei Fu, Xiangyu Yue, Zhi Chen, Jianlan Luo
cs.AI
Аннотация
Роботизированное манипулирование требует моделей, которые генерируют выполнимые действия, предвидя и оценивая их будущие последствия до физического выполнения. Мы представляем τ₀-World Model (τ₀-WM) — единую видео-действия модель мира, которая объединяет обучение политике, прогнозирование видео и оценку действий в единой прогностической системе. Построенная на общей основе видео-диффузии, τ₀-WM предоставляет два взаимодополняющих интерфейса. Во-первых, видео-действия модель совместно предсказывает будущие визуальные латентные переменные и непрерывные фрагменты действий на основе многовидовых наблюдений, языковых инструкций и состояния робота. Во-вторых, обусловленный действиями видео-симулятор разворачивает кандидатные фрагменты действий в многовидовые будущие кадры и предсказывает плотные оценки прогресса задачи. Модель обучается на примерно 27 300 часах реального телеуправления роботом, взаимодействия в стиле UMI, эгоцентричных человеческих видео, а также траекториях развертывания или неудач с использованием специфических для модальности масок наблюдения. Во время вывода τ₀-WM использует вычисления в тестовое время для сэмплирования кандидатов действий, их ранжирования по согласованности повторного шумоподавления и вызова симуляторной коррекции для низкокачественных кандидатов. На сложных долгосрочных и детализированных задачах роботизированного манипулирования τ₀-WM демонстрирует превосходную производительность по сравнению с другими соответствующими базовыми моделями.
English
Robotic manipulation requires models that generate executable actions while anticipating and evaluating their future consequences before physical execution. We present τ_0-World Model (τ_0-WM), a unified video-action world model that integrates policy learning, video prediction, and action evaluation within a single future-predictive framework. Built on a shared video diffusion backbone, τ_0-WM provides two complementary interfaces. First, a video action model jointly predicts future visual latents and continuous action chunks from multi-view observations, language instructions, and robot state. Second, an action-conditioned video simulator rolls out candidate action chunks into multi-view futures and predicts dense task-progress scores. The model is trained on approximately 27{,}300 hours of real-robot teleoperation, UMI-style interaction, egocentric human videos, and rollout or failure trajectories using modality-specific supervision masks. At inference time, τ_0-WM uses test-time computation to sample action candidates, rank them with re-denoising consistency, and invoke simulator-based rectification for low-quality candidates. On challenging long-horizon and fine-grained robotic manipulation tasks, τ_0-WM shows superior performance over other relevant baselines.