τ_0-WM: Единая модель мира видео-действий для роботизированного манипулирования

Аннотация

Роботизированное манипулирование требует моделей, которые генерируют выполнимые действия, предвидя и оценивая их будущие последствия до физического выполнения. Мы представляем τ₀-World Model (τ₀-WM) — единую видео-действия модель мира, которая объединяет обучение политике, прогнозирование видео и оценку действий в единой прогностической системе. Построенная на общей основе видео-диффузии, τ₀-WM предоставляет два взаимодополняющих интерфейса. Во-первых, видео-действия модель совместно предсказывает будущие визуальные латентные переменные и непрерывные фрагменты действий на основе многовидовых наблюдений, языковых инструкций и состояния робота. Во-вторых, обусловленный действиями видео-симулятор разворачивает кандидатные фрагменты действий в многовидовые будущие кадры и предсказывает плотные оценки прогресса задачи. Модель обучается на примерно 27 300 часах реального телеуправления роботом, взаимодействия в стиле UMI, эгоцентричных человеческих видео, а также траекториях развертывания или неудач с использованием специфических для модальности масок наблюдения. Во время вывода τ₀-WM использует вычисления в тестовое время для сэмплирования кандидатов действий, их ранжирования по согласованности повторного шумоподавления и вызова симуляторной коррекции для низкокачественных кандидатов. На сложных долгосрочных и детализированных задачах роботизированного манипулирования τ₀-WM демонстрирует превосходную производительность по сравнению с другими соответствующими базовыми моделями.

English

Robotic manipulation requires models that generate executable actions while anticipating and evaluating their future consequences before physical execution. We present τ_0-World Model (τ_0-WM), a unified video-action world model that integrates policy learning, video prediction, and action evaluation within a single future-predictive framework. Built on a shared video diffusion backbone, τ_0-WM provides two complementary interfaces. First, a video action model jointly predicts future visual latents and continuous action chunks from multi-view observations, language instructions, and robot state. Second, an action-conditioned video simulator rolls out candidate action chunks into multi-view futures and predicts dense task-progress scores. The model is trained on approximately 27{,}300 hours of real-robot teleoperation, UMI-style interaction, egocentric human videos, and rollout or failure trajectories using modality-specific supervision masks. At inference time, τ_0-WM uses test-time computation to sample action candidates, rank them with re-denoising consistency, and invoke simulator-based rectification for low-quality candidates. On challenging long-horizon and fine-grained robotic manipulation tasks, τ_0-WM shows superior performance over other relevant baselines.