DeepResearchGym: Um Ambiente de Avaliação Gratuito, Transparente e Reprodutível para Pesquisas em Aprendizado Profundo
DeepResearchGym: A Free, Transparent, and Reproducible Evaluation Sandbox for Deep Research
May 25, 2025
Autores: João Coelho, Jingjie Ning, Jingyuan He, Kangrui Mao, Abhijay Paladugu, Pranav Setlur, Jiahe Jin, Jamie Callan, João Magalhães, Bruno Martins, Chenyan Xiong
cs.AI
Resumo
Sistemas de pesquisa profunda representam uma classe emergente de métodos de recuperação de informação agentiva que geram relatórios abrangentes e bem fundamentados para consultas complexas. No entanto, a maioria dos frameworks existentes depende de APIs de busca comercial dinâmicas, que apresentam desafios de reprodutibilidade e transparência, além de seus custos. Para abordar essas limitações, introduzimos o DeepResearchGym, um sandbox de código aberto que combina uma API de busca reproduzível com um protocolo de avaliação rigoroso para benchmarking de sistemas de pesquisa profunda. A API indexa grandes corpora públicos da web, especificamente o ClueWeb22 e o FineWeb, utilizando um recuperador denso de última geração e busca por vizinhos mais próximos aproximada via DiskANN. Ela alcança latência menor do que as APIs comerciais populares, garantindo rankings de documentos estáveis entre execuções, e está disponível gratuitamente para uso em pesquisa. Para avaliar as saídas dos sistemas de pesquisa profunda, estendemos o benchmark Researchy Questions com métricas automáticas por meio de avaliações LLM-as-a-judge para medir o alinhamento com as necessidades de informação dos usuários, a fidelidade da recuperação e a qualidade dos relatórios. Resultados experimentais mostram que os sistemas integrados ao DeepResearchGym alcançam desempenho comparável àqueles que utilizam APIs comerciais, com rankings de desempenho permanecendo consistentes entre as métricas de avaliação. Um estudo de avaliação humana confirma ainda que nosso protocolo automático está alinhado com as preferências humanas, validando a capacidade do framework de apoiar a avaliação controlada de sistemas de pesquisa profunda. Nosso código e documentação da API estão disponíveis em https://www.deepresearchgym.ai.
English
Deep research systems represent an emerging class of agentic information
retrieval methods that generate comprehensive and well-supported reports to
complex queries. However, most existing frameworks rely on dynamic commercial
search APIs, which pose reproducibility and transparency challenges in addition
to their cost. To address these limitations, we introduce DeepResearchGym, an
open-source sandbox that combines a reproducible search API with a rigorous
evaluation protocol for benchmarking deep research systems. The API indexes
large-scale public web corpora, namely ClueWeb22 and FineWeb, using a
state-of-the-art dense retriever and approximate nearest neighbor search via
DiskANN. It achieves lower latency than popular commercial APIs while ensuring
stable document rankings across runs, and is freely available for research use.
To evaluate deep research systems' outputs, we extend the Researchy Questions
benchmark with automatic metrics through LLM-as-a-judge assessments to measure
alignment with users' information needs, retrieval faithfulness, and report
quality. Experimental results show that systems integrated with DeepResearchGym
achieve performance comparable to those using commercial APIs, with performance
rankings remaining consistent across evaluation metrics. A human evaluation
study further confirms that our automatic protocol aligns with human
preferences, validating the framework's ability to help support controlled
assessment of deep research systems. Our code and API documentation are
available at https://www.deepresearchgym.ai.