dWorldEval: Valutazione Scalabile delle Politiche Robotiche tramite Modello del Mondo a Diffusione Discreta
dWorldEval: Scalable Robotic Policy Evaluation via Discrete Diffusion World Model
April 24, 2026
Autori: Yaxuan Li, Zhongyi Zhou, Yefei Chen, Yaokai Xue, Yichen Zhu
cs.AI
Abstract
La valutazione di politiche robotiche su migliaia di ambienti e migliaia di compiti risulta impraticabile con gli approcci esistenti. Ciò motiva la necessità di una nuova metodologia per la valutazione scalabile delle politiche robotiche. In questo articolo proponiamo dWorldEval, che utilizza un modello del mondo a diffusione discreta come proxy di valutazione scalabile per le politiche robotiche. Nello specifico, dWorldEval mappa tutte le modalità - inclusi visione, linguaggio e azioni robotiche - in uno spazio token unificato, modellandole tramite una singola rete di denoising basata su transformer. Sulla base di questa architettura, impieghiamo una memoria sparsa di fotogrammi chiave per mantenere la coerenza spaziotemporale. Introduciamo inoltre un token di progresso che indica il grado di completamento del compito. In fase di inferenza, il modello predice congiuntamente le osservazioni future e il token di progresso, consentendo di determinare automaticamente il successo quando il progresso raggiunge 1. Esperimenti estensivi dimostrano che dWorldEval supera significativamente gli approcci precedenti, come WorldEval, Ctrl-World e WorldGym, su LIBERO, RoboTwin e su molteplici compiti con robot reali. Esso apre la strada a un nuovo paradigma architetturale nella costruzione di simulatori del mondo per la valutazione robotica su larga scala.
English
Evaluating robotics policies across thousands of environments and thousands of tasks is infeasible with existing approaches. This motivates the need for a new methodology for scalable robotics policy evaluation. In this paper, we propose dWorldEval, which uses a discrete diffusion world model as a scalable evaluation proxy for robotics policies. Specifically, dWorldEval maps all modalities - including vision, language, and robotic actions - into a unified token space, modeling them via a single transformer-based denoising network. In this paper, we propose dWorldEval, using a discrete diffusion world model as a scalable evaluation proxy for robotics policy. Specifically, it maps all modalities, including vision, language, and robotics action into a unified token space, then denoises them with a single transformer network. Building on this architecture, we employ a sparse keyframe memory to maintain spatiotemporal consistency. We also introduce a progress token that indicates the degree of task completion. At inference, the model jointly predicts future observations and progress token, allowing automatically determine success when the progress reaches 1. Extensive experiments demonstrate that dWorldEval significantly outperforms previous approaches, i.e., WorldEval, Ctrl-World, and WorldGym, on LIBERO, RoboTwin, and multiple real-robot tasks. It paves the way for a new architectural paradigm in building world simulators for robotics evaluation at scale.