DeepResearchGym: Een Gratis, Transparant en Reproduceerbaar Evaluatieplatform voor Diepgaand Onderzoek

Samenvatting

Diepe onderzoekssystemen vertegenwoordigen een opkomende klasse van agent-gebaseerde informatiezoekmethoden die uitgebreide en goed onderbouwde rapporten genereren voor complexe vragen. De meeste bestaande frameworks vertrouwen echter op dynamische commerciële zoek-API's, wat naast de kosten ook uitdagingen op het gebied van reproduceerbaarheid en transparantie met zich meebrengt. Om deze beperkingen aan te pakken, introduceren we DeepResearchGym, een open-source sandbox die een reproduceerbare zoek-API combineert met een rigoureus evaluatieprotocol voor het benchmarken van diepe onderzoekssystemen. De API indexeert grootschalige publieke webcorpora, namelijk ClueWeb22 en FineWeb, met behulp van een state-of-the-art dense retriever en approximate nearest neighbor search via DiskANN. Het behaalt een lagere latentie dan populaire commerciële API's terwijl het stabiele documentrankings over verschillende runs garandeert, en is vrij beschikbaar voor onderzoeksgebruik. Om de uitvoer van diepe onderzoekssystemen te evalueren, breiden we het Researchy Questions-benchmark uit met automatische metrieken via LLM-as-a-judge assessments om de afstemming op de informatiebehoeften van gebruikers, de trouw van de retrievals en de kwaliteit van rapporten te meten. Experimentele resultaten tonen aan dat systemen geïntegreerd met DeepResearchGym prestaties bereiken die vergelijkbaar zijn met die van commerciële API's, waarbij prestatie-rankings consistent blijven over verschillende evaluatiemetrieken. Een menselijke evaluatiestudie bevestigt verder dat ons automatische protocol overeenkomt met menselijke voorkeuren, wat het vermogen van het framework valideert om gecontroleerde beoordeling van diepe onderzoekssystemen te ondersteunen. Onze code en API-documentatie zijn beschikbaar op https://www.deepresearchgym.ai.

English

Deep research systems represent an emerging class of agentic information retrieval methods that generate comprehensive and well-supported reports to complex queries. However, most existing frameworks rely on dynamic commercial search APIs, which pose reproducibility and transparency challenges in addition to their cost. To address these limitations, we introduce DeepResearchGym, an open-source sandbox that combines a reproducible search API with a rigorous evaluation protocol for benchmarking deep research systems. The API indexes large-scale public web corpora, namely ClueWeb22 and FineWeb, using a state-of-the-art dense retriever and approximate nearest neighbor search via DiskANN. It achieves lower latency than popular commercial APIs while ensuring stable document rankings across runs, and is freely available for research use. To evaluate deep research systems' outputs, we extend the Researchy Questions benchmark with automatic metrics through LLM-as-a-judge assessments to measure alignment with users' information needs, retrieval faithfulness, and report quality. Experimental results show that systems integrated with DeepResearchGym achieve performance comparable to those using commercial APIs, with performance rankings remaining consistent across evaluation metrics. A human evaluation study further confirms that our automatic protocol aligns with human preferences, validating the framework's ability to help support controlled assessment of deep research systems. Our code and API documentation are available at https://www.deepresearchgym.ai.

DeepResearchGym: Een Gratis, Transparant en Reproduceerbaar Evaluatieplatform voor Diepgaand Onderzoek

DeepResearchGym: A Free, Transparent, and Reproducible Evaluation Sandbox for Deep Research

Samenvatting

Support