RoboMME: Тестирование и понимание памяти в универсальных роботизированных политиках

Аннотация

Память играет ключевую роль в роботизированном манипулировании, требующем долгосрочного планирования и учета истории действий. Такие задачи часто включают подсчет повторяющихся действий или манипулирование объектами, которые временно оказываются перекрыты. Современные модели, объединяющие зрение, язык и действия (vision-language-action, VLA), начали включать механизмы памяти; однако их оценка до сих пор ограничивалась узкими, нестандартизированными условиями. Это ограничивает возможность их систематического понимания, сравнения и измерения прогресса. Для решения этих проблем мы представляем RoboMME: крупномасштабный стандартизированный бенчмарк для оценки и развития VLA-моделей в сценариях, требующих долгосрочного планирования и учета истории. Наш бенчмарк включает 16 задач манипулирования, созданных в рамках тщательно разработанной таксономии, которая оценивает временную, пространственную, объектную и процедурную память. Мы также разработали набор из 14 вариантов VLA с расширенной памятью, построенных на базе архитектуры π0.5, чтобы систематически исследовать различные представления памяти при множественных стратегиях интеграции. Результаты экспериментов показывают, что эффективность представлений памяти сильно зависит от конкретной задачи, причем каждая конструкция имеет явные преимущества и ограничения в разных сценариях. Видео и код доступны на нашем сайте https://robomme.github.io.

English

Memory is critical for long-horizon and history-dependent robotic manipulation. Such tasks often involve counting repeated actions or manipulating objects that become temporarily occluded. Recent vision-language-action (VLA) models have begun to incorporate memory mechanisms; however, their evaluations remain confined to narrow, non-standardized settings. This limits their systematic understanding, comparison, and progress measurement. To address these challenges, we introduce RoboMME: a large-scale standardized benchmark for evaluating and advancing VLA models in long-horizon, history-dependent scenarios. Our benchmark comprises 16 manipulation tasks constructed under a carefully designed taxonomy that evaluates temporal, spatial, object, and procedural memory. We further develop a suite of 14 memory-augmented VLA variants built on the π0.5 backbone to systematically explore different memory representations across multiple integration strategies. Experimental results show that the effectiveness of memory representations is highly task-dependent, with each design offering distinct advantages and limitations across different tasks. Videos and code can be found at our website https://robomme.github.io.

RoboMME: Тестирование и понимание памяти в универсальных роботизированных политиках

RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies

Аннотация

Support