Laut mir: Langfristige personalisierte Frage-Antwort-Systeme mit referenziellem Gedächtnis

Zusammenfassung

Personalisierte KI-Assistenten müssen auf langfristige Benutzererinnerungen zugreifen und diese verarbeiten, die sich natürlicherweise über mehrere Modalitäten und Quellen wie Bilder, Videos und E-Mails erstrecken. Bisherige Benchmarks für Langzeitgedächtnisse konzentrieren sich jedoch hauptsächlich auf Dialogverläufe und erfassen keine realistischen, persönlichen Bezüge, die in gelebten Erfahrungen verwurzelt sind. Wir stellen ATM-Bench vor, den ersten Benchmark für multimodale, multiquellen-basierte Frage-Antwort-Systeme zum personalisierten referenziellen Gedächtnis. ATM-Bench umfasst etwa vier Jahre datenschutzkonformer persönlicher Gedächtnisdaten sowie von Menschen annotierte Frage-Antwort-Paare mit belegten Gedächtnisnachweisen. Dies schließt Abfragen ein, die das Auflösen persönlicher Referenzen, Multi-Evidenz-Schlussfolgerungen aus mehreren Quellen und den Umgang mit widersprüchlichen Evidenzen erfordern. Wir schlagen Schema-Guided Memory (SGM) vor, um Gedächtniselemente aus verschiedenen Quellen strukturell darzustellen. In Experimenten implementieren wir 5 state-of-the-art Gedächtnissysteme zusammen mit einem standardmäßigen RAG-Baseline und evaluieren Varianten mit verschiedenen Techniken zur Gedächtnisaufnahme, -abfrage und Antwortgenerierung. Wir stellen fest, dass die Leistung auf dem ATM-Bench-Hard-Datensatz gering ist (unter 20 % Genauigkeit) und dass SGM die Leistung im Vergleich zu Descriptive Memory, das in früheren Arbeiten häufig verwendet wird, verbessert. Code verfügbar unter: https://github.com/JingbiaoMei/ATM-Bench

English

Personalized AI assistants must recall and reason over long-term user memory, which naturally spans multiple modalities and sources such as images, videos, and emails. However, existing Long-term Memory benchmarks focus primarily on dialogue history, failing to capture realistic personalized references grounded in lived experience. We introduce ATM-Bench, the first benchmark for multimodal, multi-source personalized referential Memory QA. ATM-Bench contains approximately four years of privacy-preserving personal memory data and human-annotated question-answer pairs with ground-truth memory evidence, including queries that require resolving personal references, multi-evidence reasoning from multi-source and handling conflicting evidence. We propose Schema-Guided Memory (SGM) to structurally represent memory items originated from different sources. In experiments, we implement 5 state-of-the-art memory systems along with a standard RAG baseline and evaluate variants with different memory ingestion, retrieval, and answer generation techniques. We find poor performance (under 20\% accuracy) on the ATM-Bench-Hard set, and that SGM improves performance over Descriptive Memory commonly adopted in prior works. Code available at: https://github.com/JingbiaoMei/ATM-Bench

Laut mir: Langfristige personalisierte Frage-Antwort-Systeme mit referenziellem Gedächtnis

According to Me: Long-Term Personalized Referential Memory QA

Zusammenfassung

Support