dWorldEval: Avaliação Escalável de Políticas Robóticas via Modelo de Mundo por Difusão Discreta

Resumo

A avaliação de políticas de robótica em milhares de ambientes e tarefas é inviável com as abordagens existentes. Isso motiva a necessidade de uma nova metodologia para avaliação escalável de políticas de robótica. Neste artigo, propomos o dWorldEval, que utiliza um modelo de mundo de difusão discreta como um proxy escalável para avaliação de políticas de robótica. Especificamente, o dWorldEval mapeia todas as modalidades - incluindo visão, linguagem e ações robóticas - em um espaço unificado de tokens, modelando-as por meio de uma única rede de desruído baseada em transformer. Com base nesta arquitetura, empregamos uma memória esparsa de *keyframes* para manter a consistência espaço-temporal. Também introduzimos um *token* de progresso que indica o grau de conclusão da tarefa. Na inferência, o modelo prevê conjuntamente observações futuras e o *token* de progresso, permitindo determinar automaticamente o sucesso quando o progresso atinge 1. Experimentos extensivos demonstram que o dWorldEval supera significativamente abordagens anteriores, como WorldEval, Ctrl-World e WorldGym, nos conjuntos LIBERO, RoboTwin e em múltiplas tarefas com robôs reais. Ele abre caminho para um novo paradigma arquitetônico na construção de simuladores de mundo para avaliação de robótica em larga escala.

English

Evaluating robotics policies across thousands of environments and thousands of tasks is infeasible with existing approaches. This motivates the need for a new methodology for scalable robotics policy evaluation. In this paper, we propose dWorldEval, which uses a discrete diffusion world model as a scalable evaluation proxy for robotics policies. Specifically, dWorldEval maps all modalities - including vision, language, and robotic actions - into a unified token space, modeling them via a single transformer-based denoising network. In this paper, we propose dWorldEval, using a discrete diffusion world model as a scalable evaluation proxy for robotics policy. Specifically, it maps all modalities, including vision, language, and robotics action into a unified token space, then denoises them with a single transformer network. Building on this architecture, we employ a sparse keyframe memory to maintain spatiotemporal consistency. We also introduce a progress token that indicates the degree of task completion. At inference, the model jointly predicts future observations and progress token, allowing automatically determine success when the progress reaches 1. Extensive experiments demonstrate that dWorldEval significantly outperforms previous approaches, i.e., WorldEval, Ctrl-World, and WorldGym, on LIBERO, RoboTwin, and multiple real-robot tasks. It paves the way for a new architectural paradigm in building world simulators for robotics evaluation at scale.

dWorldEval: Avaliação Escalável de Políticas Robóticas via Modelo de Mundo por Difusão Discreta

dWorldEval: Scalable Robotic Policy Evaluation via Discrete Diffusion World Model

Resumo

Support