ChatPaper.aiChatPaper

DeepResearchGym: 무료, 투명, 재현 가능한 딥 리서치 평가 샌드박스

DeepResearchGym: A Free, Transparent, and Reproducible Evaluation Sandbox for Deep Research

May 25, 2025
저자: João Coelho, Jingjie Ning, Jingyuan He, Kangrui Mao, Abhijay Paladugu, Pranav Setlur, Jiahe Jin, Jamie Callan, João Magalhães, Bruno Martins, Chenyan Xiong
cs.AI

초록

딥 리서치 시스템은 복잡한 질문에 대해 포괄적이고 잘 뒷받침된 보고서를 생성하는 에이전트 기반 정보 검색 방법의 새로운 유형을 대표합니다. 그러나 대부분의 기존 프레임워크는 동적 상용 검색 API에 의존하고 있어 비용 문제뿐만 아니라 재현성과 투명성 문제를 야기합니다. 이러한 한계를 해결하기 위해, 우리는 재현 가능한 검색 API와 딥 리서치 시스템을 벤치마킹하기 위한 엄격한 평가 프로토콜을 결합한 오픈소스 샌드박스인 DeepResearchGym을 소개합니다. 이 API는 최첨단 밀집 검색기와 DiskANN을 통한 근사 최근접 이웃 검색을 사용하여 ClueWeb22 및 FineWeb과 같은 대규모 공개 웹 코퍼스를 인덱싱합니다. 이는 상용 API보다 낮은 지연 시간을 달성하면서도 실행 간 안정적인 문서 순위를 보장하며, 연구 목적으로 무료로 사용할 수 있습니다. 딥 리서치 시스템의 출력을 평가하기 위해, 우리는 Researchy Questions 벤치마크를 LLM-as-a-judge 평가를 통해 자동 메트릭으로 확장하여 사용자의 정보 요구 사항과의 일치, 검색의 충실도, 보고서 품질을 측정합니다. 실험 결과는 DeepResearchGym과 통합된 시스템이 상용 API를 사용하는 시스템과 비슷한 성능을 달성하며, 평가 메트릭 간 성능 순위가 일관되게 유지됨을 보여줍니다. 인간 평가 연구는 우리의 자동 프로토콜이 인간의 선호도와 일치함을 추가로 확인하며, 이 프레임워크가 딥 리서치 시스템의 통제된 평가를 지원하는 능력을 검증합니다. 우리의 코드와 API 문서는 https://www.deepresearchgym.ai에서 확인할 수 있습니다.
English
Deep research systems represent an emerging class of agentic information retrieval methods that generate comprehensive and well-supported reports to complex queries. However, most existing frameworks rely on dynamic commercial search APIs, which pose reproducibility and transparency challenges in addition to their cost. To address these limitations, we introduce DeepResearchGym, an open-source sandbox that combines a reproducible search API with a rigorous evaluation protocol for benchmarking deep research systems. The API indexes large-scale public web corpora, namely ClueWeb22 and FineWeb, using a state-of-the-art dense retriever and approximate nearest neighbor search via DiskANN. It achieves lower latency than popular commercial APIs while ensuring stable document rankings across runs, and is freely available for research use. To evaluate deep research systems' outputs, we extend the Researchy Questions benchmark with automatic metrics through LLM-as-a-judge assessments to measure alignment with users' information needs, retrieval faithfulness, and report quality. Experimental results show that systems integrated with DeepResearchGym achieve performance comparable to those using commercial APIs, with performance rankings remaining consistent across evaluation metrics. A human evaluation study further confirms that our automatic protocol aligns with human preferences, validating the framework's ability to help support controlled assessment of deep research systems. Our code and API documentation are available at https://www.deepresearchgym.ai.

Summary

AI-Generated Summary

PDF252May 29, 2025