RoboMME : Évaluation et compréhension de la mémoire pour les politiques robotiques généralistes

Résumé

La mémoire est essentielle pour la manipulation robotique à long terme et dépendante de l'historique. Ces tâches impliquent souvent de compter des actions répétées ou de manipuler des objets temporairement occultés. Les modèles vision-langage-action (VLA) récents ont commencé à intégrer des mécanismes de mémoire ; cependant, leurs évaluations restent confinées à des cadres étroits et non standardisés. Cela limite leur compréhension systématique, leur comparaison et la mesure des progrès. Pour relever ces défis, nous présentons RoboMME : un benchmark standardisé à grande échelle pour évaluer et faire progresser les modèles VLA dans des scénarios à long terme et dépendants de l'historique. Notre benchmark comprend 16 tâches de manipulation construites selon une taxonomie soigneusement conçue qui évalue la mémoire temporelle, spatiale, objective et procédurale. Nous développons en outre une suite de 14 variantes VLA augmentées par la mémoire, basées sur l'architecture π0.5, pour explorer systématiquement différentes représentations mémorielles à travers de multiples stratégies d'intégration. Les résultats expérimentaux montrent que l'efficacité des représentations mémorielles est fortement dépendante de la tâche, chaque conception offrant des avantages et des limitations distincts selon les tâches. Les vidéos et le code sont disponibles sur notre site https://robomme.github.io.

English

Memory is critical for long-horizon and history-dependent robotic manipulation. Such tasks often involve counting repeated actions or manipulating objects that become temporarily occluded. Recent vision-language-action (VLA) models have begun to incorporate memory mechanisms; however, their evaluations remain confined to narrow, non-standardized settings. This limits their systematic understanding, comparison, and progress measurement. To address these challenges, we introduce RoboMME: a large-scale standardized benchmark for evaluating and advancing VLA models in long-horizon, history-dependent scenarios. Our benchmark comprises 16 manipulation tasks constructed under a carefully designed taxonomy that evaluates temporal, spatial, object, and procedural memory. We further develop a suite of 14 memory-augmented VLA variants built on the π0.5 backbone to systematically explore different memory representations across multiple integration strategies. Experimental results show that the effectiveness of memory representations is highly task-dependent, with each design offering distinct advantages and limitations across different tasks. Videos and code can be found at our website https://robomme.github.io.

RoboMME : Évaluation et compréhension de la mémoire pour les politiques robotiques généralistes

RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies

Résumé

Support