Согласно мне: долгосрочная персонализированная QA-система с референциальной памятью
According to Me: Long-Term Personalized Referential Memory QA
March 2, 2026
Авторы: Jingbiao Mei, Jinghong Chen, Guangyu Yang, Xinyu Hou, Margaret Li, Bill Byrne
cs.AI
Аннотация
Персонализированные ИИ-ассистенты должны запоминать и анализировать долгосрочную память пользователя, которая естественным образом охватывает модальности и источники, такие как изображения, видео и электронные письма. Однако существующие бенчмарки долгосрочной памяти в основном сосредоточены на истории диалогов, не отражая реалистичные персонализированные ссылки, основанные на жизненном опыте. Мы представляем ATM-Bench — первый бенчмарк для многомодальных, многоисточниковых вопросно-ответных систем с персонализированной референциальной памятью. ATM-Bench содержит примерно четыре года приватных данных личной памяти и размеченных человеком вопросно-ответных пар с подтверждающими свидетельствами из памяти, включая запросы, требующие разрешения персональных ссылок, многоэвиденциальных рассуждений из нескольких источников и обработки противоречивых свидетельств. Мы предлагаем Schema-Guided Memory (SGM) для структурного представления элементов памяти, происходящих из разных источников. В экспериментах мы реализуем 5 современных систем памяти вместе с базовым RAG-подходом и оцениваем варианты с различными техниками индексирования, поиска и генерации ответов. Мы обнаружили низкую производительность (менее 20% точности) на наборе ATM-Bench-Hard и то, что SGM улучшает результаты по сравнению с дескриптивной памятью, обычно используемой в предыдущих работах. Код доступен по адресу: https://github.com/JingbiaoMei/ATM-Bench
English
Personalized AI assistants must recall and reason over long-term user memory, which naturally spans multiple modalities and sources such as images, videos, and emails. However, existing Long-term Memory benchmarks focus primarily on dialogue history, failing to capture realistic personalized references grounded in lived experience. We introduce ATM-Bench, the first benchmark for multimodal, multi-source personalized referential Memory QA. ATM-Bench contains approximately four years of privacy-preserving personal memory data and human-annotated question-answer pairs with ground-truth memory evidence, including queries that require resolving personal references, multi-evidence reasoning from multi-source and handling conflicting evidence. We propose Schema-Guided Memory (SGM) to structurally represent memory items originated from different sources. In experiments, we implement 5 state-of-the-art memory systems along with a standard RAG baseline and evaluate variants with different memory ingestion, retrieval, and answer generation techniques. We find poor performance (under 20\% accuracy) on the ATM-Bench-Hard set, and that SGM improves performance over Descriptive Memory commonly adopted in prior works. Code available at: https://github.com/JingbiaoMei/ATM-Bench