DLLM-Searcher: 검색 에이전트를 위한 확산 대규모 언어 모델 적용
DLLM-Searcher: Adapting Diffusion Large Language Model for Search Agents
February 3, 2026
저자: Jiahao Zhao, Shaoxuan Xu, Zhongxiang Sun, Fengqi Zhu, Jingyang Ou, Yuling Shi, Chongxuan Li, Xiao Zhang, Jun Xu
cs.AI
초록
최근 확산 대형 언어 모델(dLLM)은 본질적으로 병렬적인 디코딩 메커니즘과 유연한 생성 패러다임 덕분에 독특한 효율성 이점을 보여주고 있습니다. 한편, 검색 에이전트의 급속한 발전에도 불구하고, 그 실제 배포는 다음과 같은 근본적인 한계에 의해 제약을 받고 있습니다. 1) 지연 시간 문제(Latency Challenge): ReAct 에이전트 패러다임 하에서 다중 라운드 추론, 도구 호출, 도구 응답 대기가 순차적으로 실행되며 심각한 종단 간 지연을 유발합니다. 직관적으로, dLLM은 그 독특한 강점을 활용하여 ReAct 에이전트 패러다임 하에서 에이전트의 운영 효율성을 최적화할 수 있습니다. 그러나 실제로는 기존 dLLM 백본이 2) 에이전트 능력 문제(Agent Ability Challenge)에 직면해 있습니다. 즉, 기존 dLLM은 현저히 약한 추론 및 도구 호출 능력을 보여주어, 이러한 이점이 실제로 효과적으로 구현되는 것을 방해하고 있습니다. 본 논문에서는 dLLM 기반 검색 에이전트를 위한 최적화 프레임워크인 DLLM-Searcher를 제안합니다. 에이전트 능력 문제를 해결하기 위해, 우리는 에이전트 특화 감독 미세 조정(Agentic SFT)과 에이전트 분산 감소 선호도 최적화(Agentic VRPO)를 포함하는 두 단계의 사후 훈련 파이프라인을 설계하여 백본 dLLM의 정보 탐색 및 추론 능력을 향상시킵니다. 지연 시간 문제를 완화하기 위해, 우리는 dLLM의 유연한 생성 메커니즘을 활용하고 병렬 추론 및 실행(P-ReAct)이라는 새로운 에이전트 패러다임을 제안합니다. P-ReAct은 모델이 도구 호출 명령어의 디코딩을 우선시하도록 유도하여, 모델이 도구의 반환을 기다리는 동안에도 계속 생각할 수 있게 합니다. 실험 결과, DLLM-Searcher는 주류 LLM 기반 검색 에이전트에 필적하는 성능을 달성하며 P-ReAct은 약 15%의 추론 가속을 제공함을 보여줍니다. 우리의 코드는 https://anonymous.4open.science/r/DLLM-Searcher-553C에서 확인할 수 있습니다.
English
Recently, Diffusion Large Language Models (dLLMs) have demonstrated unique efficiency advantages, enabled by their inherently parallel decoding mechanism and flexible generation paradigm. Meanwhile, despite the rapid advancement of Search Agents, their practical deployment is constrained by a fundamental limitation, termed as 1) Latency Challenge: the serial execution of multi-round reasoning, tool calling, and tool response waiting under the ReAct agent paradigm induces severe end-to-end latency. Intuitively, dLLMs can leverage their distinctive strengths to optimize the operational efficiency of agents under the ReAct agent paradigm. Practically, existing dLLM backbones face the 2) Agent Ability Challenge. That is, existing dLLMs exhibit remarkably weak reasoning and tool-calling capabilities, preventing these advantages from being effectively realized in practice. In this paper, we propose DLLM-Searcher, an optimization framework for dLLM-based Search Agents. To solve the Agent Ability Challenge, we design a two-stage post-training pipeline encompassing Agentic Supervised Fine-Tuning (Agentic SFT) and Agentic Variance-Reduced Preference Optimization Agentic VRPO, which enhances the backbone dLLM's information seeking and reasoning capabilities. To mitigate the Latency Challenge, we leverage the flexible generation mechanism of dLLMs and propose a novel agent paradigm termed Parallel-Reasoning and Acting P-ReAct. P-ReAct guides the model to prioritize decoding tool_call instructions, thereby allowing the model to keep thinking while waiting for the tool's return. Experimental results demonstrate that DLLM-Searcher achieves performance comparable to mainstream LLM-based search agents and P-ReAct delivers approximately 15% inference acceleration. Our code is available at https://anonymous.4open.science/r/DLLM-Searcher-553C