ChatPaper.aiChatPaper

DeepResearchGym : Un environnement d'évaluation gratuit, transparent et reproductible pour la recherche approfondie

DeepResearchGym: A Free, Transparent, and Reproducible Evaluation Sandbox for Deep Research

May 25, 2025
Auteurs: João Coelho, Jingjie Ning, Jingyuan He, Kangrui Mao, Abhijay Paladugu, Pranav Setlur, Jiahe Jin, Jamie Callan, João Magalhães, Bruno Martins, Chenyan Xiong
cs.AI

Résumé

Les systèmes de recherche approfondie représentent une classe émergente de méthodes de recherche d'information agentiques qui génèrent des rapports complets et bien étayés en réponse à des requêtes complexes. Cependant, la plupart des frameworks existants s'appuient sur des API de recherche commerciales dynamiques, qui posent des problèmes de reproductibilité et de transparence en plus de leur coût. Pour pallier ces limitations, nous présentons DeepResearchGym, un bac à sable open-source qui combine une API de recherche reproductible avec un protocole d'évaluation rigoureux pour le benchmarking des systèmes de recherche approfondie. L'API indexe des corpus web publics à grande échelle, notamment ClueWeb22 et FineWeb, en utilisant un récupérateur dense de pointe et une recherche de voisins approximatifs via DiskANN. Elle offre une latence inférieure à celle des API commerciales populaires tout en garantissant des classements de documents stables entre les exécutions, et est librement disponible pour un usage de recherche. Pour évaluer les sorties des systèmes de recherche approfondie, nous étendons le benchmark Researchy Questions avec des métriques automatiques via des évaluations LLM-as-a-judge afin de mesurer l'alignement avec les besoins d'information des utilisateurs, la fidélité de la récupération et la qualité des rapports. Les résultats expérimentaux montrent que les systèmes intégrés à DeepResearchGym atteignent des performances comparables à celles utilisant des API commerciales, avec des classements de performance restant cohérents entre les métriques d'évaluation. Une étude d'évaluation humaine confirme en outre que notre protocole automatique est aligné avec les préférences humaines, validant la capacité du framework à soutenir une évaluation contrôlée des systèmes de recherche approfondie. Notre code et la documentation de l'API sont disponibles à l'adresse https://www.deepresearchgym.ai.
English
Deep research systems represent an emerging class of agentic information retrieval methods that generate comprehensive and well-supported reports to complex queries. However, most existing frameworks rely on dynamic commercial search APIs, which pose reproducibility and transparency challenges in addition to their cost. To address these limitations, we introduce DeepResearchGym, an open-source sandbox that combines a reproducible search API with a rigorous evaluation protocol for benchmarking deep research systems. The API indexes large-scale public web corpora, namely ClueWeb22 and FineWeb, using a state-of-the-art dense retriever and approximate nearest neighbor search via DiskANN. It achieves lower latency than popular commercial APIs while ensuring stable document rankings across runs, and is freely available for research use. To evaluate deep research systems' outputs, we extend the Researchy Questions benchmark with automatic metrics through LLM-as-a-judge assessments to measure alignment with users' information needs, retrieval faithfulness, and report quality. Experimental results show that systems integrated with DeepResearchGym achieve performance comparable to those using commercial APIs, with performance rankings remaining consistent across evaluation metrics. A human evaluation study further confirms that our automatic protocol aligns with human preferences, validating the framework's ability to help support controlled assessment of deep research systems. Our code and API documentation are available at https://www.deepresearchgym.ai.

Summary

AI-Generated Summary

PDF252May 29, 2025