ChatPaper.aiChatPaper

DeepResearchGym: Um Ambiente de Avaliação Gratuito, Transparente e Reprodutível para Pesquisas em Aprendizado Profundo

DeepResearchGym: A Free, Transparent, and Reproducible Evaluation Sandbox for Deep Research

May 25, 2025
Autores: João Coelho, Jingjie Ning, Jingyuan He, Kangrui Mao, Abhijay Paladugu, Pranav Setlur, Jiahe Jin, Jamie Callan, João Magalhães, Bruno Martins, Chenyan Xiong
cs.AI

Resumo

Sistemas de pesquisa profunda representam uma classe emergente de métodos de recuperação de informação agentiva que geram relatórios abrangentes e bem fundamentados para consultas complexas. No entanto, a maioria dos frameworks existentes depende de APIs de busca comercial dinâmicas, que apresentam desafios de reprodutibilidade e transparência, além de seus custos. Para abordar essas limitações, introduzimos o DeepResearchGym, um sandbox de código aberto que combina uma API de busca reproduzível com um protocolo de avaliação rigoroso para benchmarking de sistemas de pesquisa profunda. A API indexa grandes corpora públicos da web, especificamente o ClueWeb22 e o FineWeb, utilizando um recuperador denso de última geração e busca por vizinhos mais próximos aproximada via DiskANN. Ela alcança latência menor do que as APIs comerciais populares, garantindo rankings de documentos estáveis entre execuções, e está disponível gratuitamente para uso em pesquisa. Para avaliar as saídas dos sistemas de pesquisa profunda, estendemos o benchmark Researchy Questions com métricas automáticas por meio de avaliações LLM-as-a-judge para medir o alinhamento com as necessidades de informação dos usuários, a fidelidade da recuperação e a qualidade dos relatórios. Resultados experimentais mostram que os sistemas integrados ao DeepResearchGym alcançam desempenho comparável àqueles que utilizam APIs comerciais, com rankings de desempenho permanecendo consistentes entre as métricas de avaliação. Um estudo de avaliação humana confirma ainda que nosso protocolo automático está alinhado com as preferências humanas, validando a capacidade do framework de apoiar a avaliação controlada de sistemas de pesquisa profunda. Nosso código e documentação da API estão disponíveis em https://www.deepresearchgym.ai.
English
Deep research systems represent an emerging class of agentic information retrieval methods that generate comprehensive and well-supported reports to complex queries. However, most existing frameworks rely on dynamic commercial search APIs, which pose reproducibility and transparency challenges in addition to their cost. To address these limitations, we introduce DeepResearchGym, an open-source sandbox that combines a reproducible search API with a rigorous evaluation protocol for benchmarking deep research systems. The API indexes large-scale public web corpora, namely ClueWeb22 and FineWeb, using a state-of-the-art dense retriever and approximate nearest neighbor search via DiskANN. It achieves lower latency than popular commercial APIs while ensuring stable document rankings across runs, and is freely available for research use. To evaluate deep research systems' outputs, we extend the Researchy Questions benchmark with automatic metrics through LLM-as-a-judge assessments to measure alignment with users' information needs, retrieval faithfulness, and report quality. Experimental results show that systems integrated with DeepResearchGym achieve performance comparable to those using commercial APIs, with performance rankings remaining consistent across evaluation metrics. A human evaluation study further confirms that our automatic protocol aligns with human preferences, validating the framework's ability to help support controlled assessment of deep research systems. Our code and API documentation are available at https://www.deepresearchgym.ai.
PDF312May 29, 2025