RoboMME: Benchmarken en Begrip van Geheugen voor Robotische Algemene Beleidsregels

Samenvatting

Geheugen is cruciaal voor robotmanipulatie met een lange tijdschaal en geschiedenisafhankelijkheid. Dergelijke taken omvatten vaak het tellen van herhaalde handelingen of het manipuleren van objecten die tijdelijk aan het zicht worden onttrokken. Recente vision-language-action (VLA) modellen beginnen geheugenmechanismen te incorporeren; hun evaluaties blijven echter beperkt tot smalle, niet-gestandaardiseerde omgevingen. Dit belemmert een systematisch begrip, vergelijking en voortgangsmeting. Om deze uitdagingen aan te pakken, introduceren we RoboMME: een grootschalige, gestandaardiseerde benchmark voor het evalueren en verbeteren van VLA-modellen in scenario's met een lange tijdschaal en geschiedenisafhankelijkheid. Onze benchmark omvat 16 manipulatietaken, opgebouwd volgens een zorgvuldig ontworpen taxonomie die temporaal, ruimtelijk, object- en procedureel geheugen evalueert. We ontwikkelen verder een reeks van 14 met geheugen versterkte VLA-varianten, gebouwd op de π0.5-backbone, om verschillende geheugenrepresentaties systematisch te onderzoeken over meerdere integratiestrategieën. Experimentele resultaten tonen aan dat de effectiviteit van geheugenrepresentaties sterk taakafhankelijk is, waarbij elk ontwerp duidelijke voor- en nadelen biedt voor verschillende taken. Video's en code zijn beschikbaar op onze website https://robomme.github.io.

English

Memory is critical for long-horizon and history-dependent robotic manipulation. Such tasks often involve counting repeated actions or manipulating objects that become temporarily occluded. Recent vision-language-action (VLA) models have begun to incorporate memory mechanisms; however, their evaluations remain confined to narrow, non-standardized settings. This limits their systematic understanding, comparison, and progress measurement. To address these challenges, we introduce RoboMME: a large-scale standardized benchmark for evaluating and advancing VLA models in long-horizon, history-dependent scenarios. Our benchmark comprises 16 manipulation tasks constructed under a carefully designed taxonomy that evaluates temporal, spatial, object, and procedural memory. We further develop a suite of 14 memory-augmented VLA variants built on the π0.5 backbone to systematically explore different memory representations across multiple integration strategies. Experimental results show that the effectiveness of memory representations is highly task-dependent, with each design offering distinct advantages and limitations across different tasks. Videos and code can be found at our website https://robomme.github.io.

RoboMME: Benchmarken en Begrip van Geheugen voor Robotische Algemene Beleidsregels

RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies

Samenvatting

Support