dWorldEval : Évaluation évolutive des politiques robotiques via un modèle de monde à diffusion discrète
dWorldEval: Scalable Robotic Policy Evaluation via Discrete Diffusion World Model
April 24, 2026
Auteurs: Yaxuan Li, Zhongyi Zhou, Yefei Chen, Yaokai Xue, Yichen Zhu
cs.AI
Résumé
L'évaluation des politiques robotiques sur des milliers d'environnements et de tâches est irréalisable avec les approches existantes. Cela motive la nécessité d'une nouvelle méthodologie pour une évaluation scalable des politiques robotiques. Dans cet article, nous proposons dWorldEval, qui utilise un modèle de monde à diffusion discrète comme proxy d'évaluation scalable pour les politiques robotiques. Concrètement, dWorldEval cartographie toutes les modalités - incluant la vision, le langage et les actions robotiques - dans un espace de tokens unifié, en les modélisant via un unique réseau de débruitage basé sur un transformeur. S'appuyant sur cette architecture, nous utilisons une mémoire clé-images parcimonieuse pour maintenir la cohérence spatio-temporelle. Nous introduisons également un token de progression qui indique le degré d'accomplissement de la tâche. Lors de l'inférence, le modèle prédit conjointement les observations futures et le token de progression, permettant de déterminer automatiquement la réussite lorsque la progression atteint 1. Des expériences approfondies démontrent que dWorldEval surpasse significativement les approches précédentes, à savoir WorldEval, Ctrl-World et WorldGym, sur les tâches LIBERO, RoboTwin et plusieurs tâches sur robots réels. Il ouvre la voie à un nouveau paradigme architectural pour la construction de simulateurs mondiaux destinés à l'évaluation robotique à grande échelle.
English
Evaluating robotics policies across thousands of environments and thousands of tasks is infeasible with existing approaches. This motivates the need for a new methodology for scalable robotics policy evaluation. In this paper, we propose dWorldEval, which uses a discrete diffusion world model as a scalable evaluation proxy for robotics policies. Specifically, dWorldEval maps all modalities - including vision, language, and robotic actions - into a unified token space, modeling them via a single transformer-based denoising network. In this paper, we propose dWorldEval, using a discrete diffusion world model as a scalable evaluation proxy for robotics policy. Specifically, it maps all modalities, including vision, language, and robotics action into a unified token space, then denoises them with a single transformer network. Building on this architecture, we employ a sparse keyframe memory to maintain spatiotemporal consistency. We also introduce a progress token that indicates the degree of task completion. At inference, the model jointly predicts future observations and progress token, allowing automatically determine success when the progress reaches 1. Extensive experiments demonstrate that dWorldEval significantly outperforms previous approaches, i.e., WorldEval, Ctrl-World, and WorldGym, on LIBERO, RoboTwin, and multiple real-robot tasks. It paves the way for a new architectural paradigm in building world simulators for robotics evaluation at scale.