KnowMe-Bench: Benchmark per la Comprensione della Persona nei Compagni Digitali a Lungo Termine
KnowMe-Bench: Benchmarking Person Understanding for Lifelong Digital Companions
January 8, 2026
Autori: Tingyu Wu, Zhisheng Chen, Ziyan Weng, Shuhe Wang, Chenglong Li, Shuo Zhang, Sen Hu, Silin Wu, Qizhen Lan, Huacan Wang, Ronghao Chen
cs.AI
Abstract
I benchmark esistenti sulla memoria a lungo termine utilizzano principalmente dialoghi multi-turno o cronologie utente sintetiche, rendendo le prestazioni di retrieval un indicatore imperfetto della comprensione della persona. Presentiamo \BenchName, un benchmark di pubblico accessibile costruito da narrazioni autobiografiche estese, dove azioni, contesto e pensieri interiori forniscono evidenze dense per inferire motivazioni stabili e principi decisionali. \BenchName ricostruisce ogni narrazione in un flusso ancorato temporalmente e consapevole dei flashback, valutando i modelli con domande collegate alle evidenze che abbracciano il richiamo fattuale, l'attribuzione di stati soggettivi e il ragionamento a livello di principi. Attraverso fonti narrative diverse, i sistemi potenziati dal retrieval migliorano principalmente l'accuratezza fattuale, mentre persistono errori nelle spiegazioni temporalmente contestualizzate e nelle inferenze di livello superiore, evidenziando la necessità di meccanismi di memoria che vadano oltre il retrieval. I nostri dati sono disponibili in KnowMeBench{https://github.com/QuantaAlpha/KnowMeBench}.
English
Existing long-horizon memory benchmarks mostly use multi-turn dialogues or synthetic user histories, which makes retrieval performance an imperfect proxy for person understanding. We present \BenchName, a publicly releasable benchmark built from long-form autobiographical narratives, where actions, context, and inner thoughts provide dense evidence for inferring stable motivations and decision principles. \BenchName~reconstructs each narrative into a flashback-aware, time-anchored stream and evaluates models with evidence-linked questions spanning factual recall, subjective state attribution, and principle-level reasoning. Across diverse narrative sources, retrieval-augmented systems mainly improve factual accuracy, while errors persist on temporally grounded explanations and higher-level inferences, highlighting the need for memory mechanisms beyond retrieval. Our data is in KnowMeBench{https://github.com/QuantaAlpha/KnowMeBench}.