RoboLab: Um Benchmark de Simulação de Alta Fidelidade para Análise de Políticas Generalistas de Tarefas

Resumo

A busca por robótica de propósito geral tem produzido modelos-base impressionantes, mas a avaliação comparativa baseada em simulação continua a ser um gargalo devido à rápida saturação de desempenho e à falta de testes de generalização genuínos. Os benchmarks existentes frequentemente exibem uma sobreposição significativa de domínio entre o treinamento e a avaliação, banalizando as taxas de sucesso e obscurecendo insights sobre robustez. Apresentamos o RoboLab, uma estrutura de avaliação comparativa em simulação concebida para enfrentar esses desafios. Concretamente, a nossa estrutura foi desenhada para responder a duas questões: (1) até que ponto podemos compreender o desempenho de uma política do mundo real analisando o seu comportamento em simulação, e (2) quais fatores externos afetam mais fortemente esse comportamento sob perturbações controladas. Em primeiro lugar, o RoboLab permite a geração de cenas e tarefas, criadas por humanos ou habilitadas por LLMs, de uma forma agnóstica em relação ao robô e à política, dentro de uma simulação fisicamente realista e fotorrealista. Com isto, propomos o benchmark RoboLab-120, composto por 120 tarefas categorizadas em três eixos de competência: competência visual, procedural e relacional, distribuídas por três níveis de dificuldade. Em segundo lugar, introduzimos uma análise sistemática de políticas do mundo real que quantifica tanto o seu desempenho como a sensibilidade do seu comportamento a perturbações controladas, indicando que uma simulação de alta fidelidade pode servir como um proxy para analisar o desempenho e a sua dependência de fatores externos. A avaliação com o RoboLab expõe uma lacuna de desempenho significativa nos modelos state-of-the-art atuais. Ao fornecer métricas granulares e um conjunto de ferramentas escalável, o RoboLab oferece uma estrutura escalável para avaliar as verdadeiras capacidades de generalização de políticas robóticas generalistas para tarefas.

English

The pursuit of general-purpose robotics has yielded impressive foundation models, yet simulation-based benchmarking remains a bottleneck due to rapid performance saturation and a lack of true generalization testing. Existing benchmarks often exhibit significant domain overlap between training and evaluation, trivializing success rates and obscuring insights into robustness. We introduce RoboLab, a simulation benchmarking framework designed to address these challenges. Concretely, our framework is designed to answer two questions: (1) to what extent can we understand the performance of a real-world policy by analyzing its behavior in simulation, and (2) which external factors most strongly affect that behavior under controlled perturbations. First, RoboLab enables human-authored and LLM-enabled generation of scenes and tasks in a robot- and policy-agnostic manner within a physically realistic and photorealistic simulation. With this, we propose the RoboLab-120 benchmark, consisting of 120 tasks categorized into three competency axes: visual, procedural, relational competency, across three difficulty levels. Second, we introduce a systematic analysis of real-world policies that quantify both their performance and the sensitivity of their behavior to controlled perturbations, indicating that high-fidelity simulation can serve as a proxy for analyzing performance and its dependence on external factors. Evaluation with RoboLab exposes significant performance gap in current state-of-the-art models. By providing granular metrics and a scalable toolset, RoboLab offers a scalable framework for evaluating the true generalization capabilities of task-generalist robotic policies.

RoboLab: Um Benchmark de Simulação de Alta Fidelidade para Análise de Políticas Generalistas de Tarefas

RoboLab: A High-Fidelity Simulation Benchmark for Analysis of Task Generalist Policies

Resumo

Support