Hin zu personalisierter Tiefenforschung: Benchmarks und Evaluierungen
Towards Personalized Deep Research: Benchmarks and Evaluations
September 29, 2025
papers.authors: Yuan Liang, Jiaxian Li, Yuqing Wang, Piaohong Wang, Motong Tian, Pai Liu, Shuofei Qiao, Runnan Fang, He Zhu, Ge Zhang, Minghao Liu, Yuchen Eleanor Jiang, Ningyu Zhang, Wangchunshu Zhou
cs.AI
papers.abstract
Deep Research Agents (DRAs) können eigenständig komplexe Untersuchungen durchführen und umfassende Berichte erstellen, was ihr erhebliches Potenzial in der Praxis unterstreicht. Bisherige Bewertungen stützen sich jedoch hauptsächlich auf geschlossene Benchmarks, während offene Benchmarks für tiefgehende Recherchen rar sind und in der Regel personalisierte Szenarien vernachlässigen. Um diese Lücke zu schließen, führen wir den Personalized Deep Research Bench ein, den ersten Benchmark zur Bewertung der Personalisierung in DRAs. Er kombiniert 50 vielfältige Rechercheaufgaben aus 10 Domänen mit 25 authentischen Benutzerprofilen, die strukturierte Persona-Attribute mit dynamischen realen Kontexten verbinden, und erzeugt so 250 realistische Benutzer-Aufgaben-Abfragen. Um die Systemleistung zu bewerten, schlagen wir das PQR-Bewertungsframework vor, das (P) Personalisierungsausrichtung, (Q) Inhaltsqualität und (R) faktische Zuverlässigkeit gemeinsam misst. Unsere Experimente mit einer Reihe von Systemen verdeutlichen die aktuellen Fähigkeiten und Grenzen bei der Handhabung personalisierter tiefer Recherchen. Diese Arbeit schafft eine fundierte Grundlage für die Entwicklung und Bewertung der nächsten Generation wirklich personalisierter KI-Rechercheassistenten.
English
Deep Research Agents (DRAs) can autonomously conduct complex investigations
and generate comprehensive reports, demonstrating strong real-world potential.
However, existing evaluations mostly rely on close-ended benchmarks, while
open-ended deep research benchmarks remain scarce and typically neglect
personalized scenarios. To bridge this gap, we introduce Personalized Deep
Research Bench, the first benchmark for evaluating personalization in DRAs. It
pairs 50 diverse research tasks across 10 domains with 25 authentic user
profiles that combine structured persona attributes with dynamic real-world
contexts, yielding 250 realistic user-task queries. To assess system
performance, we propose the PQR Evaluation Framework, which jointly measures
(P) Personalization Alignment, (Q) Content Quality, and (R) Factual
Reliability. Our experiments on a range of systems highlight current
capabilities and limitations in handling personalized deep research. This work
establishes a rigorous foundation for developing and evaluating the next
generation of truly personalized AI research assistants.