Omni-SimpleMem: Автоисследовательское открытие памяти многомодального агента на протяжении всей жизни
Omni-SimpleMem: Autoresearch-Guided Discovery of Lifelong Multimodal Agent Memory
April 2, 2026
Авторы: Jiaqi Liu, Zipeng Ling, Shi Qiu, Yanqing Liu, Siwei Han, Peng Xia, Haoqin Tu, Zeyu Zheng, Cihang Xie, Charles Fleming, Mingyu Ding, Huaxiu Yao
cs.AI
Аннотация
Искусственные интеллектуальные агенты все чаще функционируют в условиях протяженных временных горизонтов, однако их способность сохранять, организовывать и воспроизводить мультимодальный опыт остается ключевым ограничивающим фактором. Создание эффективной памяти на протяжении всего жизненного цикла требует навигации по обширному пространству проектных решений, охватывающему архитектуру, стратегии извлечения, инженерию промптов и конвейеры данных; это пространство слишком велико и взаимосвязано для эффективного исследования вручную или с помощью традиционного AutoML. Мы развертываем автономный исследовательский конвейер для обнаружения Omni-SimpleMem — унифицированной мультимодальной архитектуры памяти для долгоживущих ИИ-агентов. Исходя из наивного базового уровня (F1=0.117 на LoCoMo), конвейер автономно выполняет ~50 экспериментов на двух тестовых наборах, диагностируя типы сбоев, предлагая архитектурные модификации и исправляя ошибки в конвейерах данных, полностью без вмешательства человека во внутренний цикл. Получившаяся система достигает состояния искусства на обоих наборах, улучшая F1-меру на +411% на LoCoMo (с 0.117 до 0.598) и на +214% на Mem-Gallery (с 0.254 до 0.797) по сравнению с исходными конфигурациями. Важно, что наиболее значимые открытия не являются настройками гиперпараметров: исправления ошибок (+175%), архитектурные изменения (+44%) и инженерия промптов (+188% по определенным категориям) каждый по отдельности превосходят совокупный вклад всей настройки гиперпараметров, демонстрируя возможности, принципиально недоступные для традиционного AutoML. Мы предлагаем таксономию из шести типов открытий и определяем четыре свойства, которые делают мультимодальную память особенно подходящей для автономных исследований, предлагая руководство по применению автономных исследовательских конвейеров к другим областям ИИ-систем. Код доступен по адресу: https://github.com/aiming-lab/SimpleMem.
English
AI agents increasingly operate over extended time horizons, yet their ability to retain, organize, and recall multimodal experiences remains a critical bottleneck. Building effective lifelong memory requires navigating a vast design space spanning architecture, retrieval strategies, prompt engineering, and data pipelines; this space is too large and interconnected for manual exploration or traditional AutoML to explore effectively. We deploy an autonomous research pipeline to discover Omni-SimpleMem, a unified multimodal memory framework for lifelong AI agents. Starting from a naïve baseline (F1=0.117 on LoCoMo), the pipeline autonomously executes {sim}50 experiments across two benchmarks, diagnosing failure modes, proposing architectural modifications, and repairing data pipeline bugs, all without human intervention in the inner loop. The resulting system achieves state-of-the-art on both benchmarks, improving F1 by +411% on LoCoMo (0.117to0.598) and +214% on Mem-Gallery (0.254to0.797) relative to the initial configurations. Critically, the most impactful discoveries are not hyperparameter adjustments: bug fixes (+175%), architectural changes (+44%), and prompt engineering (+188% on specific categories) each individually exceed the cumulative contribution of all hyperparameter tuning, demonstrating capabilities fundamentally beyond the reach of traditional AutoML. We provide a taxonomy of six discovery types and identify four properties that make multimodal memory particularly suited for autoresearch, offering guidance for applying autonomous research pipelines to other AI system domains. Code is available at this https://github.com/aiming-lab/SimpleMem.