D'après moi : Questions-Réponses sur la mémoire référentielle personnalisée à long terme

Résumé

Les assistants IA personnalisés doivent mémoriser et raisonner sur la mémoire à long terme de l'utilisateur, qui s'étend naturellement sur plusieurs modalités et sources telles que les images, les vidéos et les courriels. Cependant, les benchmarks existants sur la mémoire à long terme se concentrent principalement sur l'historique des dialogues, ne parvenant pas à capturer les références personnalisées réalistes ancrées dans l'expérience vécue. Nous présentons ATM-Bench, le premier benchmark pour la question-réponse mnésique référentielle personnalisée multimodale et multi-source. ATM-Bench contient environ quatre années de données de mémoire personnelle préservant la confidentialité et des paires question-réponse annotées manuellement avec des preuves mnésiques de référence, incluant des requêtes qui nécessitent la résolution de références personnelles, le raisonnement multi-preuve à partir de sources multiples et la gestion de preuves conflictuelles. Nous proposons la Mémoire à Schéma Guidé (SGM) pour représenter structurellement les éléments de mémoire provenant de différentes sources. Lors des expériences, nous implémentons 5 systèmes de mémoire state-of-the-art ainsi qu'une baseline RAG standard, et évaluons des variantes avec différentes techniques d'ingestion, de récupération et de génération de réponses. Nous constatons de faibles performances (moins de 20 % de précision) sur l'ensemble ATM-Bench-Difficile, et que SGM améliore les performances par rapport à la Mémoire Descriptive couramment adoptée dans les travaux antérieurs. Code disponible à : https://github.com/JingbiaoMei/ATM-Bench

English

Personalized AI assistants must recall and reason over long-term user memory, which naturally spans multiple modalities and sources such as images, videos, and emails. However, existing Long-term Memory benchmarks focus primarily on dialogue history, failing to capture realistic personalized references grounded in lived experience. We introduce ATM-Bench, the first benchmark for multimodal, multi-source personalized referential Memory QA. ATM-Bench contains approximately four years of privacy-preserving personal memory data and human-annotated question-answer pairs with ground-truth memory evidence, including queries that require resolving personal references, multi-evidence reasoning from multi-source and handling conflicting evidence. We propose Schema-Guided Memory (SGM) to structurally represent memory items originated from different sources. In experiments, we implement 5 state-of-the-art memory systems along with a standard RAG baseline and evaluate variants with different memory ingestion, retrieval, and answer generation techniques. We find poor performance (under 20\% accuracy) on the ATM-Bench-Hard set, and that SGM improves performance over Descriptive Memory commonly adopted in prior works. Code available at: https://github.com/JingbiaoMei/ATM-Bench

D'après moi : Questions-Réponses sur la mémoire référentielle personnalisée à long terme

According to Me: Long-Term Personalized Referential Memory QA

Résumé

Support