DeepResearchGym: Een Gratis, Transparant en Reproduceerbaar Evaluatieplatform voor Diepgaand Onderzoek
DeepResearchGym: A Free, Transparent, and Reproducible Evaluation Sandbox for Deep Research
May 25, 2025
Auteurs: João Coelho, Jingjie Ning, Jingyuan He, Kangrui Mao, Abhijay Paladugu, Pranav Setlur, Jiahe Jin, Jamie Callan, João Magalhães, Bruno Martins, Chenyan Xiong
cs.AI
Samenvatting
Diepe onderzoekssystemen vertegenwoordigen een opkomende klasse van agent-gebaseerde informatiezoekmethoden die uitgebreide en goed onderbouwde rapporten genereren voor complexe vragen. De meeste bestaande frameworks vertrouwen echter op dynamische commerciële zoek-API's, wat naast de kosten ook uitdagingen op het gebied van reproduceerbaarheid en transparantie met zich meebrengt. Om deze beperkingen aan te pakken, introduceren we DeepResearchGym, een open-source sandbox die een reproduceerbare zoek-API combineert met een rigoureus evaluatieprotocol voor het benchmarken van diepe onderzoekssystemen. De API indexeert grootschalige publieke webcorpora, namelijk ClueWeb22 en FineWeb, met behulp van een state-of-the-art dense retriever en approximate nearest neighbor search via DiskANN. Het behaalt een lagere latentie dan populaire commerciële API's terwijl het stabiele documentrankings over verschillende runs garandeert, en is vrij beschikbaar voor onderzoeksgebruik. Om de uitvoer van diepe onderzoekssystemen te evalueren, breiden we het Researchy Questions-benchmark uit met automatische metrieken via LLM-as-a-judge assessments om de afstemming op de informatiebehoeften van gebruikers, de trouw van de retrievals en de kwaliteit van rapporten te meten. Experimentele resultaten tonen aan dat systemen geïntegreerd met DeepResearchGym prestaties bereiken die vergelijkbaar zijn met die van commerciële API's, waarbij prestatie-rankings consistent blijven over verschillende evaluatiemetrieken. Een menselijke evaluatiestudie bevestigt verder dat ons automatische protocol overeenkomt met menselijke voorkeuren, wat het vermogen van het framework valideert om gecontroleerde beoordeling van diepe onderzoekssystemen te ondersteunen. Onze code en API-documentatie zijn beschikbaar op https://www.deepresearchgym.ai.
English
Deep research systems represent an emerging class of agentic information
retrieval methods that generate comprehensive and well-supported reports to
complex queries. However, most existing frameworks rely on dynamic commercial
search APIs, which pose reproducibility and transparency challenges in addition
to their cost. To address these limitations, we introduce DeepResearchGym, an
open-source sandbox that combines a reproducible search API with a rigorous
evaluation protocol for benchmarking deep research systems. The API indexes
large-scale public web corpora, namely ClueWeb22 and FineWeb, using a
state-of-the-art dense retriever and approximate nearest neighbor search via
DiskANN. It achieves lower latency than popular commercial APIs while ensuring
stable document rankings across runs, and is freely available for research use.
To evaluate deep research systems' outputs, we extend the Researchy Questions
benchmark with automatic metrics through LLM-as-a-judge assessments to measure
alignment with users' information needs, retrieval faithfulness, and report
quality. Experimental results show that systems integrated with DeepResearchGym
achieve performance comparable to those using commercial APIs, with performance
rankings remaining consistent across evaluation metrics. A human evaluation
study further confirms that our automatic protocol aligns with human
preferences, validating the framework's ability to help support controlled
assessment of deep research systems. Our code and API documentation are
available at https://www.deepresearchgym.ai.