오픈 딥 서치: 오픈소스 추론 에이전트를 통한 검색의 민주화
Open Deep Search: Democratizing Search with Open-source Reasoning Agents
March 26, 2025
저자: Salaheddin Alzubi, Creston Brooks, Purva Chiniya, Edoardo Contente, Chiara von Gerlach, Lucas Irwin, Yihan Jiang, Arda Kaz, Windsor Nguyen, Sewoong Oh, Himanshu Tyagi, Pramod Viswanath
cs.AI
초록
우리는 Perplexity의 Sonar Reasoning Pro와 OpenAI의 GPT-4o Search Preview와 같은 독점 검색 AI 솔루션과 오픈소스 대안 간의 점점 더 벌어지는 격차를 해소하기 위해 Open Deep Search(ODS)를 소개합니다. ODS에서 도입된 주요 혁신은 최신 오픈소스 대형 언어 모델(LLM)의 추론 능력을 웹 검색 도구를 적절히 활용하여 질문에 답할 수 있는 추론 에이전트로 강화하는 것입니다. 구체적으로, ODS는 사용자가 선택한 기본 LLM과 함께 작동하는 두 가지 구성 요소로 이루어져 있습니다: Open Search Tool과 Open Reasoning Agent. Open Reasoning Agent는 주어진 작업을 해석하고 도구 호출을 포함한 일련의 작업을 조율하여 이를 완료합니다. 이 중 하나가 Open Search Tool입니다. Open Search Tool은 독점 솔루션을 능가하는 새로운 웹 검색 도구입니다. DeepSeek-R1과 같은 강력한 오픈소스 추론 LLM과 함께 ODS는 SimpleQA와 FRAMES라는 두 가지 벤치마크에서 기존의 최첨단 기준선을 거의 따라잡거나 때로는 능가합니다. 예를 들어, FRAMES 평가 벤치마크에서 ODS는 최근 출시된 GPT-4o Search Preview의 최고 기준선을 정확도에서 9.7% 향상시켰습니다. ODS는 모든 LLM(예: SimpleQA에서 82.4%, FRAMES에서 30.1%를 달성한 DeepSeek-R1)에 검색 및 추론 기능을 원활하게 추가하여 최첨단 성능(SimpleQA에서 88.3%, FRAMES에서 75.3%)을 달성할 수 있는 일반적인 프레임워크입니다.
English
We introduce Open Deep Search (ODS) to close the increasing gap between the
proprietary search AI solutions, such as Perplexity's Sonar Reasoning Pro and
OpenAI's GPT-4o Search Preview, and their open-source counterparts. The main
innovation introduced in ODS is to augment the reasoning capabilities of the
latest open-source LLMs with reasoning agents that can judiciously use web
search tools to answer queries. Concretely, ODS consists of two components that
work with a base LLM chosen by the user: Open Search Tool and Open Reasoning
Agent. Open Reasoning Agent interprets the given task and completes it by
orchestrating a sequence of actions that includes calling tools, one of which
is the Open Search Tool. Open Search Tool is a novel web search tool that
outperforms proprietary counterparts. Together with powerful open-source
reasoning LLMs, such as DeepSeek-R1, ODS nearly matches and sometimes surpasses
the existing state-of-the-art baselines on two benchmarks: SimpleQA and FRAMES.
For example, on the FRAMES evaluation benchmark, ODS improves the best existing
baseline of the recently released GPT-4o Search Preview by 9.7% in accuracy.
ODS is a general framework for seamlessly augmenting any LLMs -- for example,
DeepSeek-R1 that achieves 82.4% on SimpleQA and 30.1% on FRAMES -- with search
and reasoning capabilities to achieve state-of-the-art performance: 88.3% on
SimpleQA and 75.3% on FRAMES.Summary
AI-Generated Summary