KnowMe-Bench : Évaluation de la compréhension des personnes pour des compagnons numériques tout au long de la vie
KnowMe-Bench: Benchmarking Person Understanding for Lifelong Digital Companions
January 8, 2026
papers.authors: Tingyu Wu, Zhisheng Chen, Ziyan Weng, Shuhe Wang, Chenglong Li, Shuo Zhang, Sen Hu, Silin Wu, Qizhen Lan, Huacan Wang, Ronghao Chen
cs.AI
papers.abstract
Les référentiels existants pour la mémoire à long terme utilisent principalement des dialogues multi-tours ou des historiques d'utilisateurs synthétiques, ce qui fait que les performances en matière de recherche d'information constituent un indicateur imparfait de la compréhension de la personne. Nous présentons \BenchName, un référentiel publiable construit à partir de récits autobiographiques détaillés, où les actions, le contexte et les pensées intimes fournissent des preuves tangibles pour déduire des motivations stables et des principes décisionnels. \BenchName~reconstruit chaque récit en un flux ancré temporellement avec prise en compte des retours en arrière, et évalue les modèles avec des questions liées aux preuves couvrant le rappel factuel, l'attribution d'états subjectifs et le raisonnement au niveau des principes. Sur diverses sources narratives, les systèmes à recherche augmentée améliorent principalement la précision factuelle, tandis que les erreurs persistent sur les explications temporellement ancrées et les inférations de plus haut niveau, soulignant le besoin de mécanismes de mémoire allant au-delà de la simple recherche. Nos données sont disponibles sur KnowMeBench{https://github.com/QuantaAlpha/KnowMeBench}.
English
Existing long-horizon memory benchmarks mostly use multi-turn dialogues or synthetic user histories, which makes retrieval performance an imperfect proxy for person understanding. We present \BenchName, a publicly releasable benchmark built from long-form autobiographical narratives, where actions, context, and inner thoughts provide dense evidence for inferring stable motivations and decision principles. \BenchName~reconstructs each narrative into a flashback-aware, time-anchored stream and evaluates models with evidence-linked questions spanning factual recall, subjective state attribution, and principle-level reasoning. Across diverse narrative sources, retrieval-augmented systems mainly improve factual accuracy, while errors persist on temporally grounded explanations and higher-level inferences, highlighting the need for memory mechanisms beyond retrieval. Our data is in KnowMeBench{https://github.com/QuantaAlpha/KnowMeBench}.