ChatPaper.aiChatPaper

오픈 딥 서치: 오픈소스 추론 에이전트를 통한 검색의 민주화

Open Deep Search: Democratizing Search with Open-source Reasoning Agents

March 26, 2025
저자: Salaheddin Alzubi, Creston Brooks, Purva Chiniya, Edoardo Contente, Chiara von Gerlach, Lucas Irwin, Yihan Jiang, Arda Kaz, Windsor Nguyen, Sewoong Oh, Himanshu Tyagi, Pramod Viswanath
cs.AI

초록

우리는 Perplexity의 Sonar Reasoning Pro와 OpenAI의 GPT-4o Search Preview와 같은 독점 검색 AI 솔루션과 오픈소스 대안 간의 점점 더 벌어지는 격차를 해소하기 위해 Open Deep Search(ODS)를 소개합니다. ODS에서 도입된 주요 혁신은 최신 오픈소스 대형 언어 모델(LLM)의 추론 능력을 웹 검색 도구를 적절히 활용하여 질문에 답할 수 있는 추론 에이전트로 강화하는 것입니다. 구체적으로, ODS는 사용자가 선택한 기본 LLM과 함께 작동하는 두 가지 구성 요소로 이루어져 있습니다: Open Search Tool과 Open Reasoning Agent. Open Reasoning Agent는 주어진 작업을 해석하고 도구 호출을 포함한 일련의 작업을 조율하여 이를 완료합니다. 이 중 하나가 Open Search Tool입니다. Open Search Tool은 독점 솔루션을 능가하는 새로운 웹 검색 도구입니다. DeepSeek-R1과 같은 강력한 오픈소스 추론 LLM과 함께 ODS는 SimpleQA와 FRAMES라는 두 가지 벤치마크에서 기존의 최첨단 기준선을 거의 따라잡거나 때로는 능가합니다. 예를 들어, FRAMES 평가 벤치마크에서 ODS는 최근 출시된 GPT-4o Search Preview의 최고 기준선을 정확도에서 9.7% 향상시켰습니다. ODS는 모든 LLM(예: SimpleQA에서 82.4%, FRAMES에서 30.1%를 달성한 DeepSeek-R1)에 검색 및 추론 기능을 원활하게 추가하여 최첨단 성능(SimpleQA에서 88.3%, FRAMES에서 75.3%)을 달성할 수 있는 일반적인 프레임워크입니다.
English
We introduce Open Deep Search (ODS) to close the increasing gap between the proprietary search AI solutions, such as Perplexity's Sonar Reasoning Pro and OpenAI's GPT-4o Search Preview, and their open-source counterparts. The main innovation introduced in ODS is to augment the reasoning capabilities of the latest open-source LLMs with reasoning agents that can judiciously use web search tools to answer queries. Concretely, ODS consists of two components that work with a base LLM chosen by the user: Open Search Tool and Open Reasoning Agent. Open Reasoning Agent interprets the given task and completes it by orchestrating a sequence of actions that includes calling tools, one of which is the Open Search Tool. Open Search Tool is a novel web search tool that outperforms proprietary counterparts. Together with powerful open-source reasoning LLMs, such as DeepSeek-R1, ODS nearly matches and sometimes surpasses the existing state-of-the-art baselines on two benchmarks: SimpleQA and FRAMES. For example, on the FRAMES evaluation benchmark, ODS improves the best existing baseline of the recently released GPT-4o Search Preview by 9.7% in accuracy. ODS is a general framework for seamlessly augmenting any LLMs -- for example, DeepSeek-R1 that achieves 82.4% on SimpleQA and 30.1% on FRAMES -- with search and reasoning capabilities to achieve state-of-the-art performance: 88.3% on SimpleQA and 75.3% on FRAMES.

Summary

AI-Generated Summary

PDF463March 27, 2025