RoboMME: Benchmarking und Verständnis des Gedächtnisses für generalistische Robotik-Policies

Zusammenfassung

Gedächtnis ist entscheidend für langfristige und verlaufsabhängige robotische Manipulation. Solche Aufgaben beinhalten oft das Zählen wiederholter Aktionen oder das Manipulieren von Objekten, die zeitweise verdeckt werden. Aktuelle Vision-Language-Action (VLA)-Modelle beginnen, Gedächtnismechanismen zu integrieren; deren Evaluationen bleiben jedoch auf eng begrenzte, nicht standardisierte Settings beschränkt. Dies schränkt das systematische Verständnis, den Vergleich und die Fortschrittsmessung ein. Um diese Herausforderungen zu adressieren, stellen wir RoboMME vor: einen umfangreichen, standardisi Benchmark zur Bewertung und Weiterentwicklung von VLA-Modellen in langfristigen, verlaufsabhängigen Szenarien. Unser Benchmark umfasst 16 Manipulationsaufgaben, die auf Basis einer sorgfältig entworfenen Taxonomie entwickelt wurden, die temporales, räumliches, Objekt- und prozedurales Gedächtnis evaluiert. Darüber hinaus entwickeln wir eine Suite von 14 gedächtniserweiterten VLA-Varianten, die auf dem π0.5-Backbone aufbauen, um systematisch verschiedene Gedächtnisrepräsentationen über mehrere Integrationsstrategien hinweg zu untersuchen. Experimentelle Ergebnisse zeigen, dass die Wirksamkeit von Gedächtnisrepräsentationen stark aufgabenabhängig ist, wobei jedes Design spezifische Vor- und Nachteile bei verschiedenen Aufgaben bietet. Videos und Code sind auf unserer Website https://robomme.github.io zu finden.

English

Memory is critical for long-horizon and history-dependent robotic manipulation. Such tasks often involve counting repeated actions or manipulating objects that become temporarily occluded. Recent vision-language-action (VLA) models have begun to incorporate memory mechanisms; however, their evaluations remain confined to narrow, non-standardized settings. This limits their systematic understanding, comparison, and progress measurement. To address these challenges, we introduce RoboMME: a large-scale standardized benchmark for evaluating and advancing VLA models in long-horizon, history-dependent scenarios. Our benchmark comprises 16 manipulation tasks constructed under a carefully designed taxonomy that evaluates temporal, spatial, object, and procedural memory. We further develop a suite of 14 memory-augmented VLA variants built on the π0.5 backbone to systematically explore different memory representations across multiple integration strategies. Experimental results show that the effectiveness of memory representations is highly task-dependent, with each design offering distinct advantages and limitations across different tasks. Videos and code can be found at our website https://robomme.github.io.

RoboMME: Benchmarking und Verständnis des Gedächtnisses für generalistische Robotik-Policies

RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies

Zusammenfassung

Support