ChatPaper.aiChatPaper

Volgens Mij: Lange-Termijn Gepersonaliseerd Referentieel Geheugen V&A

According to Me: Long-Term Personalized Referential Memory QA

March 2, 2026
Auteurs: Jingbiao Mei, Jinghong Chen, Guangyu Yang, Xinyu Hou, Margaret Li, Bill Byrne
cs.AI

Samenvatting

Gepersonaliseerde AI-assistenten moeten langetermijngebruikersgeheugen kunnen oproepen en hierover redeneren, wat van nature multimodaal is en afkomstig uit meerdere bronnen zoals afbeeldingen, video's en e-mails. Bestaande benchmarks voor Langetermijngeheugen richten zich echter voornamelijk op dialooggeschiedenis en slagen er niet in realistische, gepersonaliseerde referenties te vatten die geworteld zijn in ervaringen uit het dagelijks leven. Wij introduceren ATM-Bench, de eerste benchmark voor multimodale, multi-bron gepersonaliseerde referentiële Geheugen-QA. ATM-Bench bevat ongeveer vier jaar aan privacybeschermende persoonlijke geheugengegevens en door mensen geannoteerde vraag-antwoordparen met ondersteunend geheugenbewijs als grondwaarheid, waaronder vragen die het oplossen van persoonlijke referenties, redeneren met meerdere bewijsstukken uit meerdere bronnen en het hanteren van tegenstrijdig bewijs vereisen. Wij stellen Schema-Gestuurd Geheugen (SGM) voor om geheugenitems die uit verschillende bronnen ontstaan structureel weer te geven. In experimenten implementeren we 5 state-of-the-art geheugensystemen samen met een standaard RAG-baseline en evalueren we varianten met verschillende technieken voor geheugeninname, -opzoeken en antwoordgeneratie. Wij constateren slechte prestaties (minder dan 20% nauwkeurigheid) op de ATM-Bench-Hard set, en dat SGM de prestaties verbetert ten opzichte van Beschrijvend Geheugen, dat vaak in eerdere werken wordt gebruikt. Code beschikbaar op: https://github.com/JingbiaoMei/ATM-Bench
English
Personalized AI assistants must recall and reason over long-term user memory, which naturally spans multiple modalities and sources such as images, videos, and emails. However, existing Long-term Memory benchmarks focus primarily on dialogue history, failing to capture realistic personalized references grounded in lived experience. We introduce ATM-Bench, the first benchmark for multimodal, multi-source personalized referential Memory QA. ATM-Bench contains approximately four years of privacy-preserving personal memory data and human-annotated question-answer pairs with ground-truth memory evidence, including queries that require resolving personal references, multi-evidence reasoning from multi-source and handling conflicting evidence. We propose Schema-Guided Memory (SGM) to structurally represent memory items originated from different sources. In experiments, we implement 5 state-of-the-art memory systems along with a standard RAG baseline and evaluate variants with different memory ingestion, retrieval, and answer generation techniques. We find poor performance (under 20\% accuracy) on the ATM-Bench-Hard set, and that SGM improves performance over Descriptive Memory commonly adopted in prior works. Code available at: https://github.com/JingbiaoMei/ATM-Bench
PDF52March 19, 2026