Vers une recherche approfondie personnalisée : Benchmarks et évaluations

Résumé

Les Agents de Recherche Approfondie (ARA) sont capables de mener de manière autonome des investigations complexes et de générer des rapports détaillés, démontrant ainsi un fort potentiel d’application dans le monde réel. Cependant, les évaluations existantes reposent principalement sur des benchmarks à questions fermées, tandis que les benchmarks ouverts pour la recherche approfondie restent rares et négligent généralement les scénarios personnalisés. Pour combler cette lacune, nous introduisons le Personalized Deep Research Bench, le premier benchmark conçu pour évaluer la personnalisation dans les ARA. Il associe 50 tâches de recherche variées couvrant 10 domaines à 25 profils utilisateurs authentiques, combinant des attributs de persona structurés avec des contextes dynamiques issus du monde réel, produisant ainsi 250 requêtes utilisateur-tâche réalistes. Pour évaluer la performance des systèmes, nous proposons le Cadre d’Évaluation PQR, qui mesure conjointement (P) l’Alignement de la Personnalisation, (Q) la Qualité du Contenu et (R) la Fiabilité Factuelle. Nos expériences sur une gamme de systèmes mettent en lumière les capacités actuelles et les limites dans la gestion de la recherche approfondie personnalisée. Ce travail établit une base rigoureuse pour le développement et l’évaluation de la prochaine génération d’assistants de recherche IA véritablement personnalisés.

English

Deep Research Agents (DRAs) can autonomously conduct complex investigations and generate comprehensive reports, demonstrating strong real-world potential. However, existing evaluations mostly rely on close-ended benchmarks, while open-ended deep research benchmarks remain scarce and typically neglect personalized scenarios. To bridge this gap, we introduce Personalized Deep Research Bench, the first benchmark for evaluating personalization in DRAs. It pairs 50 diverse research tasks across 10 domains with 25 authentic user profiles that combine structured persona attributes with dynamic real-world contexts, yielding 250 realistic user-task queries. To assess system performance, we propose the PQR Evaluation Framework, which jointly measures (P) Personalization Alignment, (Q) Content Quality, and (R) Factual Reliability. Our experiments on a range of systems highlight current capabilities and limitations in handling personalized deep research. This work establishes a rigorous foundation for developing and evaluating the next generation of truly personalized AI research assistants.

Vers une recherche approfondie personnalisée : Benchmarks et évaluations

Towards Personalized Deep Research: Benchmarks and Evaluations

Résumé

Support