Omni-SimpleMem: Descoberta Orientada por Auto-Pesquisa de Memória de Agente Multimodal ao Longo da Vida

Resumo

Os agentes de IA operam cada vez mais em horizontes temporais estendidos, mas a sua capacidade de reter, organizar e recuperar experiências multimodais continua a ser um gargalo crítico. A construção de uma memória vitalícia eficaz requer a navegação por um vasto espaço de projeto que abrange arquitetura, estratégias de recuperação, engenharia de *prompts* e fluxos de dados; este espaço é demasiado amplo e interligado para ser explorado eficazmente através de métodos manuais ou de AutoML tradicional. Implementamos um *pipeline* de pesquisa autónomo para descobrir o Omni-SimpleMem, um quadro unificado de memória multimodal para agentes de IA vitalícios. Partindo de uma base ingénua (F1=0,117 no LoCoMo), o *pipeline* executa de forma autónoma {sim}50 experiências em dois *benchmarks*, diagnosticando modos de falha, propondo modificações arquitetónicas e corrigindo erros nos fluxos de dados, tudo sem intervenção humana no ciclo interno. O sistema resultante atinge o estado da arte em ambos os *benchmarks*, melhorando o F1 em +411% no LoCoMo (0,117 para 0,598) e +214% no Mem-Gallery (0,254 para 0,797) em relação às configurações iniciais. Criticamente, as descobertas mais impactantes não são ajustes de hiperparâmetros: correções de erros (+175%), alterações arquitetónicas (+44%) e engenharia de *prompts* (+188% em categorias específicas) excedem individualmente a contribuição cumulativa de todo o ajuste de hiperparâmetros, demonstrando capacidades fundamentalmente além do alcance do AutoML tradicional. Fornecemos uma taxonomia de seis tipos de descoberta e identificamos quatro propriedades que tornam a memória multimodal particularmente adequada para a autorresearch, oferecendo orientações para aplicar *pipelines* de pesquisa autónomos a outros domínios de sistemas de IA. O código está disponível em https://github.com/aiming-lab/SimpleMem.

English

AI agents increasingly operate over extended time horizons, yet their ability to retain, organize, and recall multimodal experiences remains a critical bottleneck. Building effective lifelong memory requires navigating a vast design space spanning architecture, retrieval strategies, prompt engineering, and data pipelines; this space is too large and interconnected for manual exploration or traditional AutoML to explore effectively. We deploy an autonomous research pipeline to discover Omni-SimpleMem, a unified multimodal memory framework for lifelong AI agents. Starting from a naïve baseline (F1=0.117 on LoCoMo), the pipeline autonomously executes {sim}50 experiments across two benchmarks, diagnosing failure modes, proposing architectural modifications, and repairing data pipeline bugs, all without human intervention in the inner loop. The resulting system achieves state-of-the-art on both benchmarks, improving F1 by +411% on LoCoMo (0.117to0.598) and +214% on Mem-Gallery (0.254to0.797) relative to the initial configurations. Critically, the most impactful discoveries are not hyperparameter adjustments: bug fixes (+175%), architectural changes (+44%), and prompt engineering (+188% on specific categories) each individually exceed the cumulative contribution of all hyperparameter tuning, demonstrating capabilities fundamentally beyond the reach of traditional AutoML. We provide a taxonomy of six discovery types and identify four properties that make multimodal memory particularly suited for autoresearch, offering guidance for applying autonomous research pipelines to other AI system domains. Code is available at this https://github.com/aiming-lab/SimpleMem.

Omni-SimpleMem: Descoberta Orientada por Auto-Pesquisa de Memória de Agente Multimodal ao Longo da Vida

Omni-SimpleMem: Autoresearch-Guided Discovery of Lifelong Multimodal Agent Memory

Resumo

Support