RoboLab: un benchmark di simulazione ad alta fedeltà per l'analisi di politiche generaliste per compiti

Abstract

La ricerca della robotica general-purpose ha prodotto modelli fondazionali impressionanti, ma la valutazione comparativa basata sulla simulazione rimane un collo di bottiglia a causa della rapida saturazione delle prestazioni e della mancanza di test di generalizzazione autentici. I benchmark esistenti spesso presentano una significativa sovrapposizione di dominio tra addestramento e valutazione, banalizzando i tassi di successo e oscurando le intuizioni sulla robustezza. Introduciamo RoboLab, un framework di benchmarking in simulazione progettato per affrontare queste sfide. Nello specifico, il nostro framework è concepito per rispondere a due domande: (1) fino a che punto possiamo comprendere le prestazioni di una policy del mondo reale analizzandone il comportamento in simulazione, e (2) quali fattori esterni influenzano più fortemente tale comportamento sotto perturbazioni controllate. In primo luogo, RoboLab consente la generazione di scene e task, sia da parte di umani che abilitata da LLM, in modo indipendente dal robot e dalla policy, all'interno di una simulazione fisicamente realistica e fotorealistica. Con questo, proponiamo il benchmark RoboLab-120, composto da 120 task categorizzati lungo tre assi di competenza: competenza visiva, procedurale e relazionale, attraverso tre livelli di difficoltà. In secondo luogo, introduciamo un'analisi sistematica delle policy del mondo reale che quantifica sia le loro prestazioni che la sensibilità del loro comportamento a perturbazioni controllate, indicando che una simulazione ad alta fedeltà può fungere da proxy per analizzare le prestazioni e la loro dipendenza da fattori esterni. La valutazione con RoboLab rivela un divario prestazionale significativo negli attuali modelli state-of-the-art. Fornendo metriche granulari e un insieme di strumenti scalabile, RoboLab offre un framework scalabile per valutare le vere capacità di generalizzazione delle policy robotiche generaliste per task.

English

The pursuit of general-purpose robotics has yielded impressive foundation models, yet simulation-based benchmarking remains a bottleneck due to rapid performance saturation and a lack of true generalization testing. Existing benchmarks often exhibit significant domain overlap between training and evaluation, trivializing success rates and obscuring insights into robustness. We introduce RoboLab, a simulation benchmarking framework designed to address these challenges. Concretely, our framework is designed to answer two questions: (1) to what extent can we understand the performance of a real-world policy by analyzing its behavior in simulation, and (2) which external factors most strongly affect that behavior under controlled perturbations. First, RoboLab enables human-authored and LLM-enabled generation of scenes and tasks in a robot- and policy-agnostic manner within a physically realistic and photorealistic simulation. With this, we propose the RoboLab-120 benchmark, consisting of 120 tasks categorized into three competency axes: visual, procedural, relational competency, across three difficulty levels. Second, we introduce a systematic analysis of real-world policies that quantify both their performance and the sensitivity of their behavior to controlled perturbations, indicating that high-fidelity simulation can serve as a proxy for analyzing performance and its dependence on external factors. Evaluation with RoboLab exposes significant performance gap in current state-of-the-art models. By providing granular metrics and a scalable toolset, RoboLab offers a scalable framework for evaluating the true generalization capabilities of task-generalist robotic policies.

RoboLab: un benchmark di simulazione ad alta fedeltà per l'analisi di politiche generaliste per compiti

RoboLab: A High-Fidelity Simulation Benchmark for Analysis of Task Generalist Policies

Abstract

Support