ChatPaper.aiChatPaper

DeepResearchGym: Un Ambiente di Valutazione Gratuito, Trasparente e Riproducibile per la Ricerca Profonda

DeepResearchGym: A Free, Transparent, and Reproducible Evaluation Sandbox for Deep Research

May 25, 2025
Autori: João Coelho, Jingjie Ning, Jingyuan He, Kangrui Mao, Abhijay Paladugu, Pranav Setlur, Jiahe Jin, Jamie Callan, João Magalhães, Bruno Martins, Chenyan Xiong
cs.AI

Abstract

I sistemi di ricerca approfondita rappresentano una nuova classe di metodi di recupero delle informazioni agentivi che generano report completi e ben supportati per query complesse. Tuttavia, la maggior parte dei framework esistenti si basa su API di ricerca commerciali dinamiche, che presentano sfide di riproducibilità e trasparenza oltre ai loro costi. Per affrontare queste limitazioni, introduciamo DeepResearchGym, un sandbox open-source che combina un'API di ricerca riproducibile con un protocollo di valutazione rigoroso per il benchmarking dei sistemi di ricerca approfondita. L'API indicizza corpora web pubblici su larga scala, in particolare ClueWeb22 e FineWeb, utilizzando un recuperatore denso all'avanguardia e una ricerca approssimata del vicino più prossimo tramite DiskANN. Raggiunge una latenza inferiore rispetto alle popolari API commerciali garantendo al contempo classifiche di documenti stabili tra le esecuzioni, ed è liberamente disponibile per uso di ricerca. Per valutare gli output dei sistemi di ricerca approfondita, estendiamo il benchmark Researchy Questions con metriche automatiche attraverso valutazioni LLM-as-a-judge per misurare l'allineamento con le esigenze informative degli utenti, la fedeltà del recupero e la qualità del report. I risultati sperimentali mostrano che i sistemi integrati con DeepResearchGym raggiungono prestazioni comparabili a quelli che utilizzano API commerciali, con classifiche di prestazioni che rimangono coerenti tra le metriche di valutazione. Uno studio di valutazione umana conferma ulteriormente che il nostro protocollo automatico è allineato con le preferenze umane, validando la capacità del framework di supportare una valutazione controllata dei sistemi di ricerca approfondita. Il nostro codice e la documentazione dell'API sono disponibili su https://www.deepresearchgym.ai.
English
Deep research systems represent an emerging class of agentic information retrieval methods that generate comprehensive and well-supported reports to complex queries. However, most existing frameworks rely on dynamic commercial search APIs, which pose reproducibility and transparency challenges in addition to their cost. To address these limitations, we introduce DeepResearchGym, an open-source sandbox that combines a reproducible search API with a rigorous evaluation protocol for benchmarking deep research systems. The API indexes large-scale public web corpora, namely ClueWeb22 and FineWeb, using a state-of-the-art dense retriever and approximate nearest neighbor search via DiskANN. It achieves lower latency than popular commercial APIs while ensuring stable document rankings across runs, and is freely available for research use. To evaluate deep research systems' outputs, we extend the Researchy Questions benchmark with automatic metrics through LLM-as-a-judge assessments to measure alignment with users' information needs, retrieval faithfulness, and report quality. Experimental results show that systems integrated with DeepResearchGym achieve performance comparable to those using commercial APIs, with performance rankings remaining consistent across evaluation metrics. A human evaluation study further confirms that our automatic protocol aligns with human preferences, validating the framework's ability to help support controlled assessment of deep research systems. Our code and API documentation are available at https://www.deepresearchgym.ai.
PDF292May 29, 2025