dWorldEval: Масштабируемая оценка политик робототехники с помощью дискретной диффузионной модели мира

Аннотация

Оценка политик робототехники в тысячах сред и для тысяч задач неосуществима существующими методами. Это обуславливает необходимость новой методологии для масштабируемой оценки политик робототехники. В данной статье мы предлагаем dWorldEval, который использует дискретную диффузионную модель мира в качестве масштабируемого прокси для оценки политик робототехники. В частности, dWorldEval отображает все модальности — включая зрение, язык и действия робота — в единое токенное пространство, моделируя их с помощью единой деноизирующей сети на основе трансформера. Основываясь на этой архитектуре, мы используем разреженную память ключевых кадров для поддержания пространственно-временной согласованности. Также мы вводим токен прогресса, который указывает степень выполнения задачи. На этапе вывода модель совместно предсказывает будущие наблюдения и токен прогресса, что позволяет автоматически определять успех при достижении прогрессом значения 1. Многочисленные эксперименты демонстрируют, что dWorldEval значительно превосходит предыдущие подходы, такие как WorldEval, Ctrl-World и WorldGym, на задачах LIBERO, RoboTwin и множестве задач с реальными роботами. Это открывает путь новой архитектурной парадигме в создании симуляторов мира для масштабируемой оценки в робототехнике.

English

Evaluating robotics policies across thousands of environments and thousands of tasks is infeasible with existing approaches. This motivates the need for a new methodology for scalable robotics policy evaluation. In this paper, we propose dWorldEval, which uses a discrete diffusion world model as a scalable evaluation proxy for robotics policies. Specifically, dWorldEval maps all modalities - including vision, language, and robotic actions - into a unified token space, modeling them via a single transformer-based denoising network. In this paper, we propose dWorldEval, using a discrete diffusion world model as a scalable evaluation proxy for robotics policy. Specifically, it maps all modalities, including vision, language, and robotics action into a unified token space, then denoises them with a single transformer network. Building on this architecture, we employ a sparse keyframe memory to maintain spatiotemporal consistency. We also introduce a progress token that indicates the degree of task completion. At inference, the model jointly predicts future observations and progress token, allowing automatically determine success when the progress reaches 1. Extensive experiments demonstrate that dWorldEval significantly outperforms previous approaches, i.e., WorldEval, Ctrl-World, and WorldGym, on LIBERO, RoboTwin, and multiple real-robot tasks. It paves the way for a new architectural paradigm in building world simulators for robotics evaluation at scale.

dWorldEval: Масштабируемая оценка политик робототехники с помощью дискретной диффузионной модели мира

dWorldEval: Scalable Robotic Policy Evaluation via Discrete Diffusion World Model

Аннотация

Support