Vers une recherche approfondie personnalisée : Benchmarks et évaluations
Towards Personalized Deep Research: Benchmarks and Evaluations
September 29, 2025
papers.authors: Yuan Liang, Jiaxian Li, Yuqing Wang, Piaohong Wang, Motong Tian, Pai Liu, Shuofei Qiao, Runnan Fang, He Zhu, Ge Zhang, Minghao Liu, Yuchen Eleanor Jiang, Ningyu Zhang, Wangchunshu Zhou
cs.AI
papers.abstract
Les Agents de Recherche Approfondie (ARA) sont capables de mener de manière autonome des investigations complexes et de générer des rapports détaillés, démontrant ainsi un fort potentiel d’application dans le monde réel. Cependant, les évaluations existantes reposent principalement sur des benchmarks à questions fermées, tandis que les benchmarks ouverts pour la recherche approfondie restent rares et négligent généralement les scénarios personnalisés. Pour combler cette lacune, nous introduisons le Personalized Deep Research Bench, le premier benchmark conçu pour évaluer la personnalisation dans les ARA. Il associe 50 tâches de recherche variées couvrant 10 domaines à 25 profils utilisateurs authentiques, combinant des attributs de persona structurés avec des contextes dynamiques issus du monde réel, produisant ainsi 250 requêtes utilisateur-tâche réalistes. Pour évaluer la performance des systèmes, nous proposons le Cadre d’Évaluation PQR, qui mesure conjointement (P) l’Alignement de la Personnalisation, (Q) la Qualité du Contenu et (R) la Fiabilité Factuelle. Nos expériences sur une gamme de systèmes mettent en lumière les capacités actuelles et les limites dans la gestion de la recherche approfondie personnalisée. Ce travail établit une base rigoureuse pour le développement et l’évaluation de la prochaine génération d’assistants de recherche IA véritablement personnalisés.
English
Deep Research Agents (DRAs) can autonomously conduct complex investigations
and generate comprehensive reports, demonstrating strong real-world potential.
However, existing evaluations mostly rely on close-ended benchmarks, while
open-ended deep research benchmarks remain scarce and typically neglect
personalized scenarios. To bridge this gap, we introduce Personalized Deep
Research Bench, the first benchmark for evaluating personalization in DRAs. It
pairs 50 diverse research tasks across 10 domains with 25 authentic user
profiles that combine structured persona attributes with dynamic real-world
contexts, yielding 250 realistic user-task queries. To assess system
performance, we propose the PQR Evaluation Framework, which jointly measures
(P) Personalization Alignment, (Q) Content Quality, and (R) Factual
Reliability. Our experiments on a range of systems highlight current
capabilities and limitations in handling personalized deep research. This work
establishes a rigorous foundation for developing and evaluating the next
generation of truly personalized AI research assistants.