RoboMME: Avaliação e Compreensão da Memória para Políticas Robóticas Generalistas

Resumo

A memória é crítica para a manipulação robótica de longo horizonte e dependente do histórico. Tais tarefas frequentemente envolvem contar ações repetidas ou manipular objetos que ficam temporariamente ocluídos. Modelos recentes de visão-linguagem-ação (VLA) começaram a incorporar mecanismos de memória; no entanto, suas avaliações permanecem confinadas a ambientes restritos e não padronizados. Isso limita sua compreensão sistemática, comparação e medição de progresso. Para enfrentar esses desafios, apresentamos o RoboMME: um benchmark padronizado em larga escala para avaliar e avançar modelos VLA em cenários de longo horizonte e dependentes do histórico. Nosso benchmark compreende 16 tarefas de manipulação construídas sob uma taxonomia cuidadosamente projetada que avalia memória temporal, espacial, de objetos e procedural. Desenvolvemos ainda um conjunto de 14 variantes de VLA aumentadas com memória, construídas sobre a arquitetura π0.5, para explorar sistematicamente diferentes representações de memória em múltiplas estratégias de integração. Resultados experimentais mostram que a eficácia das representações de memória é altamente dependente da tarefa, com cada projeto oferecendo vantagens e limitações distintas em diferentes tarefas. Vídeos e código podem ser encontrados em nosso site https://robomme.github.io.

English

Memory is critical for long-horizon and history-dependent robotic manipulation. Such tasks often involve counting repeated actions or manipulating objects that become temporarily occluded. Recent vision-language-action (VLA) models have begun to incorporate memory mechanisms; however, their evaluations remain confined to narrow, non-standardized settings. This limits their systematic understanding, comparison, and progress measurement. To address these challenges, we introduce RoboMME: a large-scale standardized benchmark for evaluating and advancing VLA models in long-horizon, history-dependent scenarios. Our benchmark comprises 16 manipulation tasks constructed under a carefully designed taxonomy that evaluates temporal, spatial, object, and procedural memory. We further develop a suite of 14 memory-augmented VLA variants built on the π0.5 backbone to systematically explore different memory representations across multiple integration strategies. Experimental results show that the effectiveness of memory representations is highly task-dependent, with each design offering distinct advantages and limitations across different tasks. Videos and code can be found at our website https://robomme.github.io.

RoboMME: Avaliação e Compreensão da Memória para Políticas Robóticas Generalistas

RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies

Resumo

Support