dWorldEval: Skalierbare Roboter-Policy-Bewertung mittels diskretem Diffusions-Weltmodell
dWorldEval: Scalable Robotic Policy Evaluation via Discrete Diffusion World Model
April 24, 2026
Autoren: Yaxuan Li, Zhongyi Zhou, Yefei Chen, Yaokai Xue, Yichen Zhu
cs.AI
Zusammenfassung
Die Bewertung von Robotik-Policies über Tausende von Umgebungen und Tausende von Aufgaben hinweg ist mit bestehenden Ansätzen nicht durchführbar. Dies unterstreicht die Notwendigkeit einer neuen Methodik für skalierbare Robotik-Policy-Evaluierung. In diesem Artikel schlagen wir dWorldEval vor, das ein diskretes Diffusions-Weltmodell als skalierbaren Evaluierungs-Proxy für Robotik-Policies verwendet. Konkret werden bei dWorldEval alle Modalitäten – einschließlich Vision, Sprache und Robotik-Aktionen – in einen einheitlichen Token-Raum abgebildet und über ein einziges transformer-basiertes Denoising-Netzwerk modelliert. Auf dieser Architektur aufbauend nutzen wir einen spärlichen Keyframe-Speicher, um raumzeitliche Konsistenz zu gewährleisten. Zusätzlich führen wir einen Fortschritts-Token ein, der den Grad der Aufgabenabschlusses anzeigt. Während der Inferenz sagt das Modell gemeinsam zukünftige Beobachtungen und den Fortschritts-Token voraus, was eine automatische Erfolgsbestimmung ermöglicht, sobald der Fortschrittswert 1 erreicht. Umfangreiche Experimente zeigen, dass dWorldEval frühere Ansätze wie WorldEval, Ctrl-World und WorldGym auf LIBERO, RoboTwin und mehreren realen Robotik-Aufgaben signifikant übertrifft. Es ebnet den Weg für ein neues Architektur-Paradigma beim Aufbau von Welt-Simulatoren für skalierbare Robotik-Evaluierung.
English
Evaluating robotics policies across thousands of environments and thousands of tasks is infeasible with existing approaches. This motivates the need for a new methodology for scalable robotics policy evaluation. In this paper, we propose dWorldEval, which uses a discrete diffusion world model as a scalable evaluation proxy for robotics policies. Specifically, dWorldEval maps all modalities - including vision, language, and robotic actions - into a unified token space, modeling them via a single transformer-based denoising network. In this paper, we propose dWorldEval, using a discrete diffusion world model as a scalable evaluation proxy for robotics policy. Specifically, it maps all modalities, including vision, language, and robotics action into a unified token space, then denoises them with a single transformer network. Building on this architecture, we employ a sparse keyframe memory to maintain spatiotemporal consistency. We also introduce a progress token that indicates the degree of task completion. At inference, the model jointly predicts future observations and progress token, allowing automatically determine success when the progress reaches 1. Extensive experiments demonstrate that dWorldEval significantly outperforms previous approaches, i.e., WorldEval, Ctrl-World, and WorldGym, on LIBERO, RoboTwin, and multiple real-robot tasks. It paves the way for a new architectural paradigm in building world simulators for robotics evaluation at scale.