К персонализированным глубоким исследованиям: эталоны и оценки
Towards Personalized Deep Research: Benchmarks and Evaluations
September 29, 2025
Авторы: Yuan Liang, Jiaxian Li, Yuqing Wang, Piaohong Wang, Motong Tian, Pai Liu, Shuofei Qiao, Runnan Fang, He Zhu, Ge Zhang, Minghao Liu, Yuchen Eleanor Jiang, Ningyu Zhang, Wangchunshu Zhou
cs.AI
Аннотация
Глубокие исследовательские агенты (Deep Research Agents, DRAs) способны автономно проводить сложные исследования и создавать всесторонние отчеты, демонстрируя значительный потенциал для применения в реальном мире. Однако существующие оценки в основном опираются на закрытые тестовые наборы данных, в то время как открытые бенчмарки для глубоких исследований остаются редкими и обычно игнорируют персонализированные сценарии. Чтобы устранить этот пробел, мы представляем Personalized Deep Research Bench — первый бенчмарк для оценки персонализации в DRAs. Он включает 50 разнообразных исследовательских задач из 10 областей, сопоставленных с 25 аутентичными профилями пользователей, которые сочетают структурированные атрибуты личности с динамическими контекстами реального мира, формируя 250 реалистичных запросов пользователей и задач. Для оценки производительности системы мы предлагаем PQR Framework, который совместно измеряет (P) соответствие персонализации, (Q) качество контента и (R) достоверность фактов. Наши эксперименты с различными системами подчеркивают текущие возможности и ограничения в обработке персонализированных глубоких исследований. Эта работа закладывает строгую основу для разработки и оценки следующего поколения по-настоящему персонализированных ИИ-ассистентов для исследований.
English
Deep Research Agents (DRAs) can autonomously conduct complex investigations
and generate comprehensive reports, demonstrating strong real-world potential.
However, existing evaluations mostly rely on close-ended benchmarks, while
open-ended deep research benchmarks remain scarce and typically neglect
personalized scenarios. To bridge this gap, we introduce Personalized Deep
Research Bench, the first benchmark for evaluating personalization in DRAs. It
pairs 50 diverse research tasks across 10 domains with 25 authentic user
profiles that combine structured persona attributes with dynamic real-world
contexts, yielding 250 realistic user-task queries. To assess system
performance, we propose the PQR Evaluation Framework, which jointly measures
(P) Personalization Alignment, (Q) Content Quality, and (R) Factual
Reliability. Our experiments on a range of systems highlight current
capabilities and limitations in handling personalized deep research. This work
establishes a rigorous foundation for developing and evaluating the next
generation of truly personalized AI research assistants.