DeepResearchGym: Бесплатная, Прозрачная и Воспроизводимая Среда для Оценки Глубоких Исследований
DeepResearchGym: A Free, Transparent, and Reproducible Evaluation Sandbox for Deep Research
May 25, 2025
Авторы: João Coelho, Jingjie Ning, Jingyuan He, Kangrui Mao, Abhijay Paladugu, Pranav Setlur, Jiahe Jin, Jamie Callan, João Magalhães, Bruno Martins, Chenyan Xiong
cs.AI
Аннотация
Глубокие исследовательские системы представляют собой новый класс агентных методов поиска информации, которые генерируют всесторонние и хорошо обоснованные отчеты в ответ на сложные запросы. Однако большинство существующих фреймворков полагаются на динамические коммерческие поисковые API, что создает проблемы с воспроизводимостью и прозрачностью, а также увеличивает затраты. Для устранения этих ограничений мы представляем DeepResearchGym — открытую песочницу, которая сочетает воспроизводимый поисковый API с строгим протоколом оценки для тестирования глубоких исследовательских систем. API индексирует крупномасштабные публичные веб-корпуса, такие как ClueWeb22 и FineWeb, используя современный плотный ретривер и приближенный поиск ближайших соседей через DiskANN. Он обеспечивает меньшую задержку по сравнению с популярными коммерческими API, гарантируя стабильность ранжирования документов между запусками, и доступен для бесплатного использования в исследовательских целях. Для оценки выходных данных глубоких исследовательских систем мы расширяем бенчмарк Researchy Questions с помощью автоматических метрик, используя LLM-as-a-judge для измерения соответствия информационным потребностям пользователей, достоверности поиска и качества отчетов. Экспериментальные результаты показывают, что системы, интегрированные с DeepResearchGym, достигают производительности, сопоставимой с системами, использующими коммерческие API, при этом ранжирование производительности остается согласованным между различными метриками оценки. Исследование с участием людей дополнительно подтверждает, что наш автоматический протокол соответствует человеческим предпочтениям, что подтверждает способность фреймворка поддерживать контролируемую оценку глубоких исследовательских систем. Наш код и документация API доступны по адресу https://www.deepresearchgym.ai.
English
Deep research systems represent an emerging class of agentic information
retrieval methods that generate comprehensive and well-supported reports to
complex queries. However, most existing frameworks rely on dynamic commercial
search APIs, which pose reproducibility and transparency challenges in addition
to their cost. To address these limitations, we introduce DeepResearchGym, an
open-source sandbox that combines a reproducible search API with a rigorous
evaluation protocol for benchmarking deep research systems. The API indexes
large-scale public web corpora, namely ClueWeb22 and FineWeb, using a
state-of-the-art dense retriever and approximate nearest neighbor search via
DiskANN. It achieves lower latency than popular commercial APIs while ensuring
stable document rankings across runs, and is freely available for research use.
To evaluate deep research systems' outputs, we extend the Researchy Questions
benchmark with automatic metrics through LLM-as-a-judge assessments to measure
alignment with users' information needs, retrieval faithfulness, and report
quality. Experimental results show that systems integrated with DeepResearchGym
achieve performance comparable to those using commercial APIs, with performance
rankings remaining consistent across evaluation metrics. A human evaluation
study further confirms that our automatic protocol aligns with human
preferences, validating the framework's ability to help support controlled
assessment of deep research systems. Our code and API documentation are
available at https://www.deepresearchgym.ai.Summary
AI-Generated Summary