ChatPaper.aiChatPaper

Omni-SimpleMem: Descubrimiento Guiado por Auto-investigación de una Memoria de Agente Multimodal de por Vida

Omni-SimpleMem: Autoresearch-Guided Discovery of Lifelong Multimodal Agent Memory

April 2, 2026
Autores: Jiaqi Liu, Zipeng Ling, Shi Qiu, Yanqing Liu, Siwei Han, Peng Xia, Haoqin Tu, Zeyu Zheng, Cihang Xie, Charles Fleming, Mingyu Ding, Huaxiu Yao
cs.AI

Resumen

Los agentes de IA operan cada vez más en horizontes temporales extendidos, pero su capacidad para retener, organizar y recuperar experiencias multimodales sigue siendo un cuello de botella crítico. La construcción de una memoria vital efectiva requiere navegar por un vasto espacio de diseño que abarca arquitectura, estrategias de recuperación, ingeniería de prompts y pipelines de datos; este espacio es demasiado grande e interconectado para que la exploración manual o el AutoML tradicional lo exploren eficazmente. Desplegamos un pipeline de investigación autónomo para descubrir Omni-SimpleMem, un marco de memoria multimodal unificado para agentes de IA de por vida. Partiendo de una línea de base ingenua (F1=0.117 en LoCoMo), el pipeline ejecuta de forma autónoma ~50 experimentos en dos benchmarks, diagnosticando modos de fallo, proponiendo modificaciones arquitectónicas y corrigiendo errores en los pipelines de datos, todo sin intervención humana en el bucle interno. El sistema resultante alcanza el estado del arte en ambos benchmarks, mejorando el F1 en un +411% en LoCoMo (de 0.117 a 0.598) y un +214% en Mem-Gallery (de 0.254 a 0.797) respecto a las configuraciones iniciales. Críticamente, los descubrimientos más impactantes no son ajustes de hiperparámetros: las correcciones de errores (+175%), los cambios arquitectónicos (+44%) y la ingeniería de prompts (+188% en categorías específicas) superan individualmente la contribución acumulada de toda la optimización de hiperparámetros, demostrando capacidades fundamentalmente fuera del alcance del AutoML tradicional. Proporcionamos una taxonomía de seis tipos de descubrimiento e identificamos cuatro propiedades que hacen que la memoria multimodal sea particularmente adecuada para la auto-investigación, ofreciendo orientación para aplicar pipelines de investigación autónomos a otros dominios de sistemas de IA. El código está disponible en https://github.com/aiming-lab/SimpleMem.
English
AI agents increasingly operate over extended time horizons, yet their ability to retain, organize, and recall multimodal experiences remains a critical bottleneck. Building effective lifelong memory requires navigating a vast design space spanning architecture, retrieval strategies, prompt engineering, and data pipelines; this space is too large and interconnected for manual exploration or traditional AutoML to explore effectively. We deploy an autonomous research pipeline to discover Omni-SimpleMem, a unified multimodal memory framework for lifelong AI agents. Starting from a naïve baseline (F1=0.117 on LoCoMo), the pipeline autonomously executes {sim}50 experiments across two benchmarks, diagnosing failure modes, proposing architectural modifications, and repairing data pipeline bugs, all without human intervention in the inner loop. The resulting system achieves state-of-the-art on both benchmarks, improving F1 by +411% on LoCoMo (0.117to0.598) and +214% on Mem-Gallery (0.254to0.797) relative to the initial configurations. Critically, the most impactful discoveries are not hyperparameter adjustments: bug fixes (+175%), architectural changes (+44%), and prompt engineering (+188% on specific categories) each individually exceed the cumulative contribution of all hyperparameter tuning, demonstrating capabilities fundamentally beyond the reach of traditional AutoML. We provide a taxonomy of six discovery types and identify four properties that make multimodal memory particularly suited for autoresearch, offering guidance for applying autonomous research pipelines to other AI system domains. Code is available at this https://github.com/aiming-lab/SimpleMem.
PDF171April 4, 2026