DeepResearchGym : Un environnement d'évaluation gratuit, transparent et reproductible pour la recherche approfondie
DeepResearchGym: A Free, Transparent, and Reproducible Evaluation Sandbox for Deep Research
May 25, 2025
Auteurs: João Coelho, Jingjie Ning, Jingyuan He, Kangrui Mao, Abhijay Paladugu, Pranav Setlur, Jiahe Jin, Jamie Callan, João Magalhães, Bruno Martins, Chenyan Xiong
cs.AI
Résumé
Les systèmes de recherche approfondie représentent une classe émergente de méthodes de recherche d'information agentiques qui génèrent des rapports complets et bien étayés en réponse à des requêtes complexes. Cependant, la plupart des frameworks existants s'appuient sur des API de recherche commerciales dynamiques, qui posent des problèmes de reproductibilité et de transparence en plus de leur coût. Pour pallier ces limitations, nous présentons DeepResearchGym, un bac à sable open-source qui combine une API de recherche reproductible avec un protocole d'évaluation rigoureux pour le benchmarking des systèmes de recherche approfondie. L'API indexe des corpus web publics à grande échelle, notamment ClueWeb22 et FineWeb, en utilisant un récupérateur dense de pointe et une recherche de voisins approximatifs via DiskANN. Elle offre une latence inférieure à celle des API commerciales populaires tout en garantissant des classements de documents stables entre les exécutions, et est librement disponible pour un usage de recherche. Pour évaluer les sorties des systèmes de recherche approfondie, nous étendons le benchmark Researchy Questions avec des métriques automatiques via des évaluations LLM-as-a-judge afin de mesurer l'alignement avec les besoins d'information des utilisateurs, la fidélité de la récupération et la qualité des rapports. Les résultats expérimentaux montrent que les systèmes intégrés à DeepResearchGym atteignent des performances comparables à celles utilisant des API commerciales, avec des classements de performance restant cohérents entre les métriques d'évaluation. Une étude d'évaluation humaine confirme en outre que notre protocole automatique est aligné avec les préférences humaines, validant la capacité du framework à soutenir une évaluation contrôlée des systèmes de recherche approfondie. Notre code et la documentation de l'API sont disponibles à l'adresse https://www.deepresearchgym.ai.
English
Deep research systems represent an emerging class of agentic information
retrieval methods that generate comprehensive and well-supported reports to
complex queries. However, most existing frameworks rely on dynamic commercial
search APIs, which pose reproducibility and transparency challenges in addition
to their cost. To address these limitations, we introduce DeepResearchGym, an
open-source sandbox that combines a reproducible search API with a rigorous
evaluation protocol for benchmarking deep research systems. The API indexes
large-scale public web corpora, namely ClueWeb22 and FineWeb, using a
state-of-the-art dense retriever and approximate nearest neighbor search via
DiskANN. It achieves lower latency than popular commercial APIs while ensuring
stable document rankings across runs, and is freely available for research use.
To evaluate deep research systems' outputs, we extend the Researchy Questions
benchmark with automatic metrics through LLM-as-a-judge assessments to measure
alignment with users' information needs, retrieval faithfulness, and report
quality. Experimental results show that systems integrated with DeepResearchGym
achieve performance comparable to those using commercial APIs, with performance
rankings remaining consistent across evaluation metrics. A human evaluation
study further confirms that our automatic protocol aligns with human
preferences, validating the framework's ability to help support controlled
assessment of deep research systems. Our code and API documentation are
available at https://www.deepresearchgym.ai.Summary
AI-Generated Summary