KnowMe-Bench: Avaliação da Compreensão de Pessoas para Companheiros Digitais ao Longo da Vida
KnowMe-Bench: Benchmarking Person Understanding for Lifelong Digital Companions
January 8, 2026
Autores: Tingyu Wu, Zhisheng Chen, Ziyan Weng, Shuhe Wang, Chenglong Li, Shuo Zhang, Sen Hu, Silin Wu, Qizhen Lan, Huacan Wang, Ronghao Chen
cs.AI
Resumo
Os benchmarks de memória de longo prazo existentes utilizam principalmente diálogos multiturno ou históricos de usuário sintéticos, o que torna o desempenho de recuperação um proxy imperfeito para a compreensão da pessoa. Apresentamos o \BenchName, um benchmark publicamente disponível construído a partir de narrativas autobiográficas longas, onde ações, contexto e pensamentos internos fornecem evidências densas para inferir motivações estáveis e princípios de decisão. O \BenchName reconstrói cada narrativa em um fluxo temporalmente ancorado e consciente de flashbacks, e avalia os modelos com questões vinculadas a evidências que abrangem recall factual, atribuição de estado subjetivo e raciocínio em nível de princípios. Em diversas fontes narrativas, os sistemas aumentados por recuperação melhoram principalmente a precisão factual, enquanto os erros persistem em explicações temporalmente fundamentadas e inferências de nível superior, destacando a necessidade de mecanismos de memória além da recuperação. Nossos dados estão disponíveis em KnowMeBench{https://github.com/QuantaAlpha/KnowMeBench}.
English
Existing long-horizon memory benchmarks mostly use multi-turn dialogues or synthetic user histories, which makes retrieval performance an imperfect proxy for person understanding. We present \BenchName, a publicly releasable benchmark built from long-form autobiographical narratives, where actions, context, and inner thoughts provide dense evidence for inferring stable motivations and decision principles. \BenchName~reconstructs each narrative into a flashback-aware, time-anchored stream and evaluates models with evidence-linked questions spanning factual recall, subjective state attribution, and principle-level reasoning. Across diverse narrative sources, retrieval-augmented systems mainly improve factual accuracy, while errors persist on temporally grounded explanations and higher-level inferences, highlighting the need for memory mechanisms beyond retrieval. Our data is in KnowMeBench{https://github.com/QuantaAlpha/KnowMeBench}.