Flash-Searcher: DAG 기반 병렬 실행을 통한 빠르고 효과적인 웹 에이전트
Flash-Searcher: Fast and Effective Web Agents via DAG-Based Parallel Execution
September 29, 2025
저자: Tianrui Qin, Qianben Chen, Sinuo Wang, He Xing, King Zhu, He Zhu, Dingfeng Shi, Xinxin Liu, Ge Zhang, Jiaheng Liu, Yuchen Eleanor Jiang, Xitong Gao, Wangchunshu Zhou
cs.AI
초록
대규모 언어 모델(LLMs)은 외부 도구와 결합할 때 복잡한 추론 작업에서 뛰어난 능력을 보여주고 있습니다. 그러나 현재의 프레임워크는 주로 순차적 처리에 의존하고 있어, 특히 광범위한 도구 상호작용이 필요한 작업에서 비효율적인 실행을 초래합니다. 본 논문은 순차적 체인에서 방향성 비순환 그래프(DAGs)로 실행 패러다임을 근본적으로 재구상한 새로운 병렬 에이전트 추론 프레임워크인 Flash-Searcher를 소개합니다. Flash-Searcher는 복잡한 작업을 명시적 의존성을 가진 하위 작업으로 분해하여, 논리적 제약을 유지하면서 독립적인 추론 경로의 동시 실행을 가능하게 합니다. 동적 워크플로우 최적화를 통해, 이 프레임워크는 중간 결과를 기반으로 실행 그래프를 지속적으로 개선하며 요약 모듈을 효과적으로 통합합니다. 다양한 벤치마크에 대한 포괄적인 평가 결과, Flash-Searcher는 기존 접근법을 일관되게 능가하는 성능을 보여줍니다. 특히, BrowseComp에서 67.7%의 정확도를, xbench-DeepSearch에서 83%의 정확도를 달성하며, 현재 프레임워크 대비 에이전트 실행 단계를 최대 35%까지 줄였습니다. 또한, 이 병렬 추론 파이프라인을 단일 모델로 정제할 때 다양한 백본 아키텍처에서 상당한 성능 향상을 관찰함으로써 우리 방법론의 일반화 가능성을 입증했습니다. 따라서 본 연구는 복잡한 추론 작업을 위한 더 확장 가능하고 효율적인 패러다임을 제공함으로써 에이전트 아키텍처 설계에서 중요한 진전을 이루었습니다.
English
Large language models (LLMs) have demonstrated remarkable capabilities in
complex reasoning tasks when equipped with external tools. However, current
frameworks predominantly rely on sequential processing, leading to inefficient
execution particularly for tasks requiring extensive tool interaction. This
paper introduces Flash-Searcher, a novel parallel agent reasoning framework
that fundamentally reimagines the execution paradigm from sequential chains to
directed acyclic graphs (DAGs). Flash-Searcher decomposes complex tasks into
subtasks with explicit dependencies, enabling concurrent execution of
independent reasoning paths while maintaining logical constraints. Through
dynamic workflow optimization, our framework continuously refines the execution
graph based on intermediate results, effectively integrating summary module.
Comprehensive evaluations across multiple benchmarks demonstrate that
Flash-Searcher consistently outperforms existing approaches. Specifically, it
achieves 67.7% accuracy on BrowseComp and 83% on xbench-DeepSearch, while
reducing agent execution steps by up to 35% compared to current frameworks.
Furthermore, when distilling this parallel reasoning pipeline into single
models, we observe substantial performance gains across diverse backbone
architectures, underscoring the generalizability of our methodology. Our work
thus represents a significant advance in agent architecture design, offering a
more scalable and efficient paradigm for complex reasoning tasks.