RoboMME: Evaluación y Comprensión de la Memoria para Políticas Robóticas Generalistas

Resumen

La memoria es crítica para la manipulación robótica de largo horizonte temporal y dependiente del historial. Dichas tareas suelen implicar contar acciones repetidas o manipular objetos que quedan temporalmente ocluidos. Los modelos recientes de visión-lenguaje-acción (VLA) han comenzado a incorporar mecanismos de memoria; sin embargo, sus evaluaciones siguen limitadas a entornos estrechos y no estandarizados. Esto limita su comprensión sistemática, comparación y medición del progreso. Para abordar estos desafíos, presentamos RoboMME: un benchmark estandarizado a gran escala para evaluar y avanzar los modelos VLA en escenarios de largo horizonte y dependientes del historial. Nuestro benchmark comprende 16 tareas de manipulación construidas bajo una taxonomía cuidadosamente diseñada que evalúa la memoria temporal, espacial, de objetos y procedimental. Además, desarrollamos un conjunto de 14 variantes de VLA aumentadas con memoria, construidas sobre la arquitectura base π0.5, para explorar sistemáticamente diferentes representaciones de memoria en múltiples estrategias de integración. Los resultados experimentales muestran que la efectividad de las representaciones de memoria es altamente dependiente de la tarea, y que cada diseño ofrece ventajas y limitaciones distintas según la tarea. Los videos y el código pueden encontrarse en nuestro sitio web https://robomme.github.io.

English

Memory is critical for long-horizon and history-dependent robotic manipulation. Such tasks often involve counting repeated actions or manipulating objects that become temporarily occluded. Recent vision-language-action (VLA) models have begun to incorporate memory mechanisms; however, their evaluations remain confined to narrow, non-standardized settings. This limits their systematic understanding, comparison, and progress measurement. To address these challenges, we introduce RoboMME: a large-scale standardized benchmark for evaluating and advancing VLA models in long-horizon, history-dependent scenarios. Our benchmark comprises 16 manipulation tasks constructed under a carefully designed taxonomy that evaluates temporal, spatial, object, and procedural memory. We further develop a suite of 14 memory-augmented VLA variants built on the π0.5 backbone to systematically explore different memory representations across multiple integration strategies. Experimental results show that the effectiveness of memory representations is highly task-dependent, with each design offering distinct advantages and limitations across different tasks. Videos and code can be found at our website https://robomme.github.io.

RoboMME: Evaluación y Comprensión de la Memoria para Políticas Robóticas Generalistas

RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies

Resumen

Support