KnowMe-Bench: Avaliação da Compreensão de Pessoas para Companheiros Digitais ao Longo da Vida

Resumo

Os benchmarks de memória de longo prazo existentes utilizam principalmente diálogos multiturno ou históricos de usuário sintéticos, o que torna o desempenho de recuperação um proxy imperfeito para a compreensão da pessoa. Apresentamos o \BenchName, um benchmark publicamente disponível construído a partir de narrativas autobiográficas longas, onde ações, contexto e pensamentos internos fornecem evidências densas para inferir motivações estáveis e princípios de decisão. O \BenchName reconstrói cada narrativa em um fluxo temporalmente ancorado e consciente de flashbacks, e avalia os modelos com questões vinculadas a evidências que abrangem recall factual, atribuição de estado subjetivo e raciocínio em nível de princípios. Em diversas fontes narrativas, os sistemas aumentados por recuperação melhoram principalmente a precisão factual, enquanto os erros persistem em explicações temporalmente fundamentadas e inferências de nível superior, destacando a necessidade de mecanismos de memória além da recuperação. Nossos dados estão disponíveis em KnowMeBench{https://github.com/QuantaAlpha/KnowMeBench}.

English

Existing long-horizon memory benchmarks mostly use multi-turn dialogues or synthetic user histories, which makes retrieval performance an imperfect proxy for person understanding. We present \BenchName, a publicly releasable benchmark built from long-form autobiographical narratives, where actions, context, and inner thoughts provide dense evidence for inferring stable motivations and decision principles. \BenchName~reconstructs each narrative into a flashback-aware, time-anchored stream and evaluates models with evidence-linked questions spanning factual recall, subjective state attribution, and principle-level reasoning. Across diverse narrative sources, retrieval-augmented systems mainly improve factual accuracy, while errors persist on temporally grounded explanations and higher-level inferences, highlighting the need for memory mechanisms beyond retrieval. Our data is in KnowMeBench{https://github.com/QuantaAlpha/KnowMeBench}.

KnowMe-Bench: Avaliação da Compreensão de Pessoas para Companheiros Digitais ao Longo da Vida

KnowMe-Bench: Benchmarking Person Understanding for Lifelong Digital Companions

Resumo

Support