dWorldEval: Evaluación Escalable de Políticas Robóticas mediante un Modelo de Mundo de Difusión Discreta

Resumen

La evaluación de políticas robóticas en miles de entornos y tareas resulta inviable con los enfoques existentes. Esto motiva la necesidad de una nueva metodología para la evaluación escalable de políticas robóticas. En este artículo, proponemos dWorldEval, que utiliza un modelo de mundo de difusión discreta como proxy de evaluación escalable para políticas robóticas. Específicamente, dWorldEval mapea todas las modalidades —incluyendo visión, lenguaje y acciones robóticas— en un espacio de tokens unificado, modelándolas mediante una única red de desruido basada en transformadores. Sobre esta arquitectura, empleamos una memoria de fotogramas clave dispersa para mantener la consistencia espacio-temporal. También introducimos un token de progreso que indica el grado de finalización de la tarea. Durante la inferencia, el modelo predice conjuntamente las observaciones futuras y el token de progreso, permitiendo determinar automáticamente el éxito cuando el progreso alcanza 1. Experimentos exhaustivos demuestran que dWorldEval supera significativamente a enfoques anteriores, como WorldEval, Ctrl-World y WorldGym, en LIBERO, RoboTwin y múltiples tareas con robots reales. Esto allana el camino para un nuevo paradigma arquitectónico en la construcción de simuladores de mundo para la evaluación robótica a gran escala.

English

Evaluating robotics policies across thousands of environments and thousands of tasks is infeasible with existing approaches. This motivates the need for a new methodology for scalable robotics policy evaluation. In this paper, we propose dWorldEval, which uses a discrete diffusion world model as a scalable evaluation proxy for robotics policies. Specifically, dWorldEval maps all modalities - including vision, language, and robotic actions - into a unified token space, modeling them via a single transformer-based denoising network. In this paper, we propose dWorldEval, using a discrete diffusion world model as a scalable evaluation proxy for robotics policy. Specifically, it maps all modalities, including vision, language, and robotics action into a unified token space, then denoises them with a single transformer network. Building on this architecture, we employ a sparse keyframe memory to maintain spatiotemporal consistency. We also introduce a progress token that indicates the degree of task completion. At inference, the model jointly predicts future observations and progress token, allowing automatically determine success when the progress reaches 1. Extensive experiments demonstrate that dWorldEval significantly outperforms previous approaches, i.e., WorldEval, Ctrl-World, and WorldGym, on LIBERO, RoboTwin, and multiple real-robot tasks. It paves the way for a new architectural paradigm in building world simulators for robotics evaluation at scale.

dWorldEval: Evaluación Escalable de Políticas Robóticas mediante un Modelo de Mundo de Difusión Discreta

dWorldEval: Scalable Robotic Policy Evaluation via Discrete Diffusion World Model

Resumen

Support