ChatPaper.aiChatPaper

DeepResearchGym: Бесплатная, Прозрачная и Воспроизводимая Среда для Оценки Глубоких Исследований

DeepResearchGym: A Free, Transparent, and Reproducible Evaluation Sandbox for Deep Research

May 25, 2025
Авторы: João Coelho, Jingjie Ning, Jingyuan He, Kangrui Mao, Abhijay Paladugu, Pranav Setlur, Jiahe Jin, Jamie Callan, João Magalhães, Bruno Martins, Chenyan Xiong
cs.AI

Аннотация

Глубокие исследовательские системы представляют собой новый класс агентных методов поиска информации, которые генерируют всесторонние и хорошо обоснованные отчеты в ответ на сложные запросы. Однако большинство существующих фреймворков полагаются на динамические коммерческие поисковые API, что создает проблемы с воспроизводимостью и прозрачностью, а также увеличивает затраты. Для устранения этих ограничений мы представляем DeepResearchGym — открытую песочницу, которая сочетает воспроизводимый поисковый API с строгим протоколом оценки для тестирования глубоких исследовательских систем. API индексирует крупномасштабные публичные веб-корпуса, такие как ClueWeb22 и FineWeb, используя современный плотный ретривер и приближенный поиск ближайших соседей через DiskANN. Он обеспечивает меньшую задержку по сравнению с популярными коммерческими API, гарантируя стабильность ранжирования документов между запусками, и доступен для бесплатного использования в исследовательских целях. Для оценки выходных данных глубоких исследовательских систем мы расширяем бенчмарк Researchy Questions с помощью автоматических метрик, используя LLM-as-a-judge для измерения соответствия информационным потребностям пользователей, достоверности поиска и качества отчетов. Экспериментальные результаты показывают, что системы, интегрированные с DeepResearchGym, достигают производительности, сопоставимой с системами, использующими коммерческие API, при этом ранжирование производительности остается согласованным между различными метриками оценки. Исследование с участием людей дополнительно подтверждает, что наш автоматический протокол соответствует человеческим предпочтениям, что подтверждает способность фреймворка поддерживать контролируемую оценку глубоких исследовательских систем. Наш код и документация API доступны по адресу https://www.deepresearchgym.ai.
English
Deep research systems represent an emerging class of agentic information retrieval methods that generate comprehensive and well-supported reports to complex queries. However, most existing frameworks rely on dynamic commercial search APIs, which pose reproducibility and transparency challenges in addition to their cost. To address these limitations, we introduce DeepResearchGym, an open-source sandbox that combines a reproducible search API with a rigorous evaluation protocol for benchmarking deep research systems. The API indexes large-scale public web corpora, namely ClueWeb22 and FineWeb, using a state-of-the-art dense retriever and approximate nearest neighbor search via DiskANN. It achieves lower latency than popular commercial APIs while ensuring stable document rankings across runs, and is freely available for research use. To evaluate deep research systems' outputs, we extend the Researchy Questions benchmark with automatic metrics through LLM-as-a-judge assessments to measure alignment with users' information needs, retrieval faithfulness, and report quality. Experimental results show that systems integrated with DeepResearchGym achieve performance comparable to those using commercial APIs, with performance rankings remaining consistent across evaluation metrics. A human evaluation study further confirms that our automatic protocol aligns with human preferences, validating the framework's ability to help support controlled assessment of deep research systems. Our code and API documentation are available at https://www.deepresearchgym.ai.

Summary

AI-Generated Summary

PDF252May 29, 2025