De Acordo Comigo: Perguntas e Respostas de Memória Referencial Personalizada de Longo Prazo

Resumo

Os assistentes de IA personalizados devem recordar e raciocinar sobre memórias de longo prazo do usuário, que naturalmente abrangem múltiplas modalidades e fontes, como imagens, vídeos e e-mails. No entanto, os benchmarks existentes de Memória de Longo Prazo concentram-se principalmente no histórico de diálogo, falhando em capturar referências personalizadas realistas fundamentadas na experiência vivida. Apresentamos o ATM-Bench, o primeiro benchmark para QA de Memória Referencial Personalizada multimodal e multifonte. O ATM-Bench contém aproximadamente quatro anos de dados de memória pessoal com preservação de privacidade e pares de perguntas-respostas anotados manualmente com evidências de memória de referência, incluindo consultas que exigem a resolução de referências pessoais, raciocínio com múltiplas evidências de múltiplas fontes e o tratamento de evidências conflitantes. Propomos o Schema-Guided Memory (SGM) para representar estruturalmente itens de memória originados de diferentes fontes. Nos experimentos, implementamos 5 sistemas de memória state-of-the-art juntamente com uma linha de base RAG padrão e avaliamos variantes com diferentes técnicas de ingestão, recuperação e geração de respostas de memória. Constatamos baixo desempenho (menos de 20% de precisão) no conjunto ATM-Bench-Hard e que o SGM melhora o desempenho em relação à Memória Descritiva comumente adotada em trabalhos anteriores. Código disponível em: https://github.com/JingbiaoMei/ATM-Bench

English

Personalized AI assistants must recall and reason over long-term user memory, which naturally spans multiple modalities and sources such as images, videos, and emails. However, existing Long-term Memory benchmarks focus primarily on dialogue history, failing to capture realistic personalized references grounded in lived experience. We introduce ATM-Bench, the first benchmark for multimodal, multi-source personalized referential Memory QA. ATM-Bench contains approximately four years of privacy-preserving personal memory data and human-annotated question-answer pairs with ground-truth memory evidence, including queries that require resolving personal references, multi-evidence reasoning from multi-source and handling conflicting evidence. We propose Schema-Guided Memory (SGM) to structurally represent memory items originated from different sources. In experiments, we implement 5 state-of-the-art memory systems along with a standard RAG baseline and evaluate variants with different memory ingestion, retrieval, and answer generation techniques. We find poor performance (under 20\% accuracy) on the ATM-Bench-Hard set, and that SGM improves performance over Descriptive Memory commonly adopted in prior works. Code available at: https://github.com/JingbiaoMei/ATM-Bench