ChatPaper.aiChatPaper

KnowMe-Bench: Evaluación de la Comprensión de Personas para Compañeros Digitales de por Vida

KnowMe-Bench: Benchmarking Person Understanding for Lifelong Digital Companions

January 8, 2026
Autores: Tingyu Wu, Zhisheng Chen, Ziyan Weng, Shuhe Wang, Chenglong Li, Shuo Zhang, Sen Hu, Silin Wu, Qizhen Lan, Huacan Wang, Ronghao Chen
cs.AI

Resumen

Los puntos de referencia existentes para la memoria de largo plazo utilizan principalmente diálogos multiturno o historiales de usuario sintéticos, lo que hace que el rendimiento de la recuperación sea un proxy imperfecto para la comprensión de la persona. Presentamos \BenchName, un punto de referencia de acceso público construido a partir de narrativas autobiográficas extensas, donde las acciones, el contexto y los pensamientos internos proporcionan evidencia densa para inferir motivaciones estables y principios de decisión. \BenchName~reconstruye cada narrativa en un flujo anclado temporalmente y consciente de los flashbacks, y evalúa los modelos con preguntas vinculadas a la evidencia que abarcan el recuerdo factual, la atribución de estados subjetivos y el razonamiento a nivel de principios. En diversas fuentes narrativas, los sistemas aumentados con recuperación mejoran principalmente la precisión factual, mientras que los errores persisten en las explicaciones temporalmente fundamentadas y las inferencias de nivel superior, lo que subraya la necesidad de mecanismos de memoria más allá de la recuperación. Nuestros datos están en KnowMeBench{https://github.com/QuantaAlpha/KnowMeBench}.
English
Existing long-horizon memory benchmarks mostly use multi-turn dialogues or synthetic user histories, which makes retrieval performance an imperfect proxy for person understanding. We present \BenchName, a publicly releasable benchmark built from long-form autobiographical narratives, where actions, context, and inner thoughts provide dense evidence for inferring stable motivations and decision principles. \BenchName~reconstructs each narrative into a flashback-aware, time-anchored stream and evaluates models with evidence-linked questions spanning factual recall, subjective state attribution, and principle-level reasoning. Across diverse narrative sources, retrieval-augmented systems mainly improve factual accuracy, while errors persist on temporally grounded explanations and higher-level inferences, highlighting the need for memory mechanisms beyond retrieval. Our data is in KnowMeBench{https://github.com/QuantaAlpha/KnowMeBench}.
PDF461January 15, 2026