MindSearch: 인간 사고 모방을 통한 심층 AI 탐색기
MindSearch: Mimicking Human Minds Elicits Deep AI Searcher
July 29, 2024
저자: Zehui Chen, Kuikun Liu, Qiuchen Wang, Jiangning Liu, Wenwei Zhang, Kai Chen, Feng Zhao
cs.AI
초록
정보 탐색과 통합은 엄청난 시간과 노력을 소모하는 복잡한 인지 작업입니다. 대규모 언어 모델(LLM)의 놀라운 발전에 영감을 받아, 최근 연구들은 LLM과 검색 엔진을 결합하여 이 작업을 해결하려고 시도하고 있습니다. 그러나 이러한 방법들은 여전히 세 가지 도전 과제로 인해 만족스러운 성능을 얻지 못하고 있습니다: (1) 복잡한 요청은 종종 검색 엔진에 의해 정확하고 완전하게 검색되지 않으며, (2) 통합해야 할 해당 정보는 방대한 노이즈와 함께 여러 웹 페이지에 흩어져 있고, (3) 긴 내용을 가진 많은 수의 웹 페이지는 LLM의 최대 컨텍스트 길이를 빠르게 초과할 수 있습니다. 인간이 이러한 문제를 해결할 때의 인지 과정에서 영감을 받아, 우리는 웹 정보 탐색과 통합에서 인간의 사고 방식을 모방한 MindSearch를 소개합니다. 이는 간단하지만 효과적인 LLM 기반 다중 에이전트 프레임워크로 구현될 수 있습니다. WebPlanner는 다단계 정보 탐색의 인간 사고를 동적 그래프 구성 과정으로 모델링합니다: 사용자 쿼리를 그래프의 노드로 사용할 원자적 하위 질문으로 분해하고, WebSearcher의 검색 결과를 기반으로 그래프를 점진적으로 확장합니다. 각 하위 질문을 담당하는 WebSearcher는 검색 엔진을 사용하여 계층적 정보 검색을 수행하고 WebPlanner를 위해 가치 있는 정보를 수집합니다. MindSearch의 다중 에이전트 설계는 전체 프레임워크가 더 큰 규모(예: 300개 이상)의 웹 페이지에서 3분 내에 정보를 탐색하고 통합할 수 있게 하며, 이는 인간이 3시간 동안 노력할 만한 가치가 있습니다. MindSearch는 폐쇄형 및 개방형 QA 문제 모두에서 깊이와 폭 측면에서 응답 품질의 상당한 개선을 보여줍니다. 또한, InternLM2.5-7B 기반의 MindSearch 응답은 ChatGPT-Web 및 Perplexity.ai 애플리케이션보다 인간에게 더 선호되는데, 이는 MindSearch가 이미 독점 AI 검색 엔진에 대한 경쟁력 있는 솔루션을 제공할 수 있음을 시사합니다.
English
Information seeking and integration is a complex cognitive task that consumes
enormous time and effort. Inspired by the remarkable progress of Large Language
Models, recent works attempt to solve this task by combining LLMs and search
engines. However, these methods still obtain unsatisfying performance due to
three challenges: (1) complex requests often cannot be accurately and
completely retrieved by the search engine once (2) corresponding information to
be integrated is spread over multiple web pages along with massive noise, and
(3) a large number of web pages with long contents may quickly exceed the
maximum context length of LLMs. Inspired by the cognitive process when humans
solve these problems, we introduce MindSearch to mimic the human minds in web
information seeking and integration, which can be instantiated by a simple yet
effective LLM-based multi-agent framework. The WebPlanner models the human mind
of multi-step information seeking as a dynamic graph construction process: it
decomposes the user query into atomic sub-questions as nodes in the graph and
progressively extends the graph based on the search result from WebSearcher.
Tasked with each sub-question, WebSearcher performs hierarchical information
retrieval with search engines and collects valuable information for WebPlanner.
The multi-agent design of MindSearch enables the whole framework to seek and
integrate information parallelly from larger-scale (e.g., more than 300) web
pages in 3 minutes, which is worth 3 hours of human effort. MindSearch
demonstrates significant improvement in the response quality in terms of depth
and breadth, on both close-set and open-set QA problems. Besides, responses
from MindSearch based on InternLM2.5-7B are preferable by humans to ChatGPT-Web
and Perplexity.ai applications, which implies that MindSearch can already
deliver a competitive solution to the proprietary AI search engine.Summary
AI-Generated Summary