Según Yo: Preguntas y Respuestas de Memoria Referencial Personalizada a Largo Plazo

Resumen

Los asistentes de IA personalizados deben recordar y razonar sobre la memoria a largo plazo del usuario, que abarca naturalmente múltiples modalidades y fuentes como imágenes, videos y correos electrónicos. Sin embargo, los benchmarks existentes de Memoria a Largo Plazo se centran principalmente en el historial de diálogos, sin capturar referencias personalizadas realistas basadas en la experiencia vivida. Presentamos ATM-Bench, el primer benchmark para Memoria Referencial Personalizada multimodal y multifuente en formato de preguntas y respuestas. ATM-Bench contiene aproximadamente cuatro años de datos de memoria personal que preservan la privacidad y pares de preguntas-respuestas anotadas manualmente con evidencia memorística de referencia, incluyendo consultas que requieren resolver referencias personales, razonamiento con múltiples evidencias de fuentes diversas y manejo de evidencias conflictivas. Proponemos Memoria Guiada por Esquemas (SGM) para representar estructuralmente elementos de memoria originados en diferentes fuentes. En los experimentos, implementamos 5 sistemas de memoria de vanguardia junto con una línea base RAG estándar, y evaluamos variantes con diferentes técnicas de ingesta de memoria, recuperación y generación de respuestas. Encontramos un rendimiento deficiente (menos del 20% de precisión) en el conjunto ATM-Bench-Hard, y que SGM mejora el rendimiento respecto a la Memoria Descriptiva comúnmente adoptada en trabajos anteriores. Código disponible en: https://github.com/JingbiaoMei/ATM-Bench

English

Personalized AI assistants must recall and reason over long-term user memory, which naturally spans multiple modalities and sources such as images, videos, and emails. However, existing Long-term Memory benchmarks focus primarily on dialogue history, failing to capture realistic personalized references grounded in lived experience. We introduce ATM-Bench, the first benchmark for multimodal, multi-source personalized referential Memory QA. ATM-Bench contains approximately four years of privacy-preserving personal memory data and human-annotated question-answer pairs with ground-truth memory evidence, including queries that require resolving personal references, multi-evidence reasoning from multi-source and handling conflicting evidence. We propose Schema-Guided Memory (SGM) to structurally represent memory items originated from different sources. In experiments, we implement 5 state-of-the-art memory systems along with a standard RAG baseline and evaluate variants with different memory ingestion, retrieval, and answer generation techniques. We find poor performance (under 20\% accuracy) on the ATM-Bench-Hard set, and that SGM improves performance over Descriptive Memory commonly adopted in prior works. Code available at: https://github.com/JingbiaoMei/ATM-Bench

Según Yo: Preguntas y Respuestas de Memoria Referencial Personalizada a Largo Plazo

According to Me: Long-Term Personalized Referential Memory QA

Resumen

Support