Secondo Me: QA sulla Memoria Referenziale Personalizzata a Lungo Termine

Abstract

Gli assistenti IA personalizzati devono ricordare e ragionare sulla memoria a lungo termine dell'utente, che naturalmente abbraccia molteplici modalità e fonti come immagini, video ed email. Tuttavia, gli attuali benchmark per la memoria a lungo termine si concentrano principalmente sulla cronologia dei dialoghi, non riuscendo a catturare riferimenti personalizzati realistici basati sull'esperienza vissuta. Introduciamo ATM-Bench, il primo benchmark per QA sulla memoria referenziale personalizzata multimodale e multi-sorgente. ATM-Bench contiene circa quattro anni di dati di memoria personale che preservano la privacy e coppie domanda-risposta annotate manualmente con evidenze mnestiche di riferimento, incluse query che richiedono la risoluzione di riferimenti personali, il ragionamento multi-evidenza da fonti multiple e la gestione di evidenze contrastanti. Proponiamo Schema-Guided Memory (SGM) per rappresentare strutturalmente gli elementi di memoria originati da diverse fonti. Negli esperimenti, implementiamo 5 sistemi di memoria all'avanguardia insieme a una baseline RAG standard e valutiamo varianti con diverse tecniche di ingestione, recupero e generazione di risposte della memoria. Rileviamo scarse prestazioni (precisione inferiore al 20%) sul set ATM-Bench-Hard e che SGM migliora le prestazioni rispetto alla Descriptive Memory comunemente adottata nei lavori precedenti. Codice disponibile su: https://github.com/JingbiaoMei/ATM-Bench

English

Personalized AI assistants must recall and reason over long-term user memory, which naturally spans multiple modalities and sources such as images, videos, and emails. However, existing Long-term Memory benchmarks focus primarily on dialogue history, failing to capture realistic personalized references grounded in lived experience. We introduce ATM-Bench, the first benchmark for multimodal, multi-source personalized referential Memory QA. ATM-Bench contains approximately four years of privacy-preserving personal memory data and human-annotated question-answer pairs with ground-truth memory evidence, including queries that require resolving personal references, multi-evidence reasoning from multi-source and handling conflicting evidence. We propose Schema-Guided Memory (SGM) to structurally represent memory items originated from different sources. In experiments, we implement 5 state-of-the-art memory systems along with a standard RAG baseline and evaluate variants with different memory ingestion, retrieval, and answer generation techniques. We find poor performance (under 20\% accuracy) on the ATM-Bench-Hard set, and that SGM improves performance over Descriptive Memory commonly adopted in prior works. Code available at: https://github.com/JingbiaoMei/ATM-Bench

Secondo Me: QA sulla Memoria Referenziale Personalizzata a Lungo Termine

According to Me: Long-Term Personalized Referential Memory QA

Abstract

Support