RoboMME: Benchmark e Comprensione della Memoria per Politiche Robotiche Generaliste

Abstract

La memoria è fondamentale per la manipolazione robotica a lungo orizzonte e dipendente dalla cronologia. Tali compiti spesso implicano contare azioni ripetute o manipolare oggetti che vengono temporaneamente occultati. I recenti modelli visione-linguaggio-azione (VLA) hanno iniziato a incorporare meccanismi di memoria; tuttavia, le loro valutazioni rimangono confinate in contesti ristretti e non standardizzati. Ciò limita la loro comprensione sistematica, il confronto e la misurazione dei progressi. Per affrontare queste sfide, introduciamo RoboMME: un benchmark standardizzato su larga scala per valutare e far progredire i modelli VLA in scenari a lungo orizzonte e dipendenti dalla cronologia. Il nostro benchmark comprende 16 compiti di manipolazione costruiti secondo una tassonomia accuratamente progettata che valuta la memoria temporale, spaziale, oggettuale e procedurale. Inoltre, sviluppiamo una suite di 14 varianti VLA potenziate con memoria, costruite sul backbone π0.5, per esplorare sistematicamente diverse rappresentazioni di memoria attraverso molteplici strategie di integrazione. I risultati sperimentali dimostrano che l'efficacia delle rappresentazioni di memoria è fortemente dipendente dal compito, con ogni progetto che offre vantaggi e limitazioni distinti tra i diversi compiti. Video e codice sono disponibili sul nostro sito web https://robomme.github.io.

English

Memory is critical for long-horizon and history-dependent robotic manipulation. Such tasks often involve counting repeated actions or manipulating objects that become temporarily occluded. Recent vision-language-action (VLA) models have begun to incorporate memory mechanisms; however, their evaluations remain confined to narrow, non-standardized settings. This limits their systematic understanding, comparison, and progress measurement. To address these challenges, we introduce RoboMME: a large-scale standardized benchmark for evaluating and advancing VLA models in long-horizon, history-dependent scenarios. Our benchmark comprises 16 manipulation tasks constructed under a carefully designed taxonomy that evaluates temporal, spatial, object, and procedural memory. We further develop a suite of 14 memory-augmented VLA variants built on the π0.5 backbone to systematically explore different memory representations across multiple integration strategies. Experimental results show that the effectiveness of memory representations is highly task-dependent, with each design offering distinct advantages and limitations across different tasks. Videos and code can be found at our website https://robomme.github.io.

RoboMME: Benchmark e Comprensione della Memoria per Politiche Robotiche Generaliste

RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies

Abstract

Support