ChatPaper.aiChatPaper

KnowMe-Bench: Бенчмарк для оценки понимания личности в контексте долгосрочных цифровых компаньонов

KnowMe-Bench: Benchmarking Person Understanding for Lifelong Digital Companions

January 8, 2026
Авторы: Tingyu Wu, Zhisheng Chen, Ziyan Weng, Shuhe Wang, Chenglong Li, Shuo Zhang, Sen Hu, Silin Wu, Qizhen Lan, Huacan Wang, Ronghao Chen
cs.AI

Аннотация

Существующие бенчмарки долгосрочной памяти в основном используют многотурные диалоги или синтетические истории пользователей, что делает производительность поиска несовершенным показателем для понимания личности. Мы представляем \BenchName, публично доступный бенчмарк, построенный на основе развернутых автобиографических нарративов, где действия, контекст и внутренние мысли предоставляют плотные доказательства для выведения устойчивых мотиваций и принципов принятия решений. \BenchName~реконструирует каждый нарратив в ориентированный на флешбэки, привязанный ко времени поток и оценивает модели с помощью вопросов, связанных с доказательствами и охватывающих фактологическое припоминание, атрибуцию субъективных состояний и рассуждения на уровне принципов. На разнообразных нарративных источниках системы с поисковым усилением в основном улучшают фактологическую точность, в то время как ошибки сохраняются в отношении временно обоснованных объяснений и выводов более высокого уровня, что подчеркивает необходимость механизмов памяти, выходящих за рамки поиска. Наши данные находятся в KnowMeBench{https://github.com/QuantaAlpha/KnowMeBench}.
English
Existing long-horizon memory benchmarks mostly use multi-turn dialogues or synthetic user histories, which makes retrieval performance an imperfect proxy for person understanding. We present \BenchName, a publicly releasable benchmark built from long-form autobiographical narratives, where actions, context, and inner thoughts provide dense evidence for inferring stable motivations and decision principles. \BenchName~reconstructs each narrative into a flashback-aware, time-anchored stream and evaluates models with evidence-linked questions spanning factual recall, subjective state attribution, and principle-level reasoning. Across diverse narrative sources, retrieval-augmented systems mainly improve factual accuracy, while errors persist on temporally grounded explanations and higher-level inferences, highlighting the need for memory mechanisms beyond retrieval. Our data is in KnowMeBench{https://github.com/QuantaAlpha/KnowMeBench}.
PDF461January 15, 2026