ChatPaper.aiChatPaper

DLLM-Searcher: Adaptación del Modelo de Lenguaje Grande de Difusión para Agentes de Búsqueda

DLLM-Searcher: Adapting Diffusion Large Language Model for Search Agents

February 3, 2026
Autores: Jiahao Zhao, Shaoxuan Xu, Zhongxiang Sun, Fengqi Zhu, Jingyang Ou, Yuling Shi, Chongxuan Li, Xiao Zhang, Jun Xu
cs.AI

Resumen

Recientemente, los Modelos de Lenguaje Grandes de Difusión (dLLMs) han demostrado ventajas únicas de eficiencia, habilitadas por su mecanismo de decodificación inherentemente paralelo y paradigma de generación flexible. Mientras tanto, a pesar del rápido avance de los Agentes de Búsqueda, su despliegue práctico está limitado por una restricción fundamental, denominada 1) Desafío de Latencia: la ejecución en serie del razonamiento en múltiples rondas, la llamada a herramientas y la espera de respuestas de las herramientas bajo el paradigma de agente ReAct induce una severa latencia de extremo a extremo. Intuitivamente, los dLLMs pueden aprovechar sus fortalezas distintivas para optimizar la eficiencia operativa de los agentes bajo el paradigma de agente ReAct. Prácticamente, los modelos base dLLM existentes se enfrentan al 2) Desafío de la Capacidad del Agente. Es decir, los dLLMs existentes exhiben capacidades de razonamiento y llamada a herramientas notablemente débiles, lo que impide que estas ventajas se materialicen efectivamente en la práctica. En este artículo, proponemos DLLM-Searcher, un marco de optimización para Agentes de Búsqueda basados en dLLM. Para resolver el Desafío de la Capacidad del Agente, diseñamos un pipeline de post-entrenamiento en dos etapas que abarca el Fine-Tuning Supervisado Agéntico (Agentic SFT) y la Optimización de Preferencias con Reducción de Varianza Agéntica (Agentic VRPO), lo cual mejora las capacidades de búsqueda de información y razonamiento del dLLM base. Para mitigar el Desafío de Latencia, aprovechamos el mecanismo de generación flexible de los dLLMs y proponemos un nuevo paradigma de agente denominado Razonamiento y Actuación en Paralelo (P-ReAct). P-ReAct guía al modelo para que priorice la decodificación de instrucciones de tool_call, permitiendo así que el modelo siga pensando mientras espera la respuesta de la herramienta. Los resultados experimentales demuestran que DLLM-Searcher logra un rendimiento comparable al de los principales agentes de búsqueda basados en LLM y que P-ReAct ofrece una aceleración de la inferencia de aproximadamente el 15%. Nuestro código está disponible en https://anonymous.4open.science/r/DLLM-Searcher-553C.
English
Recently, Diffusion Large Language Models (dLLMs) have demonstrated unique efficiency advantages, enabled by their inherently parallel decoding mechanism and flexible generation paradigm. Meanwhile, despite the rapid advancement of Search Agents, their practical deployment is constrained by a fundamental limitation, termed as 1) Latency Challenge: the serial execution of multi-round reasoning, tool calling, and tool response waiting under the ReAct agent paradigm induces severe end-to-end latency. Intuitively, dLLMs can leverage their distinctive strengths to optimize the operational efficiency of agents under the ReAct agent paradigm. Practically, existing dLLM backbones face the 2) Agent Ability Challenge. That is, existing dLLMs exhibit remarkably weak reasoning and tool-calling capabilities, preventing these advantages from being effectively realized in practice. In this paper, we propose DLLM-Searcher, an optimization framework for dLLM-based Search Agents. To solve the Agent Ability Challenge, we design a two-stage post-training pipeline encompassing Agentic Supervised Fine-Tuning (Agentic SFT) and Agentic Variance-Reduced Preference Optimization Agentic VRPO, which enhances the backbone dLLM's information seeking and reasoning capabilities. To mitigate the Latency Challenge, we leverage the flexible generation mechanism of dLLMs and propose a novel agent paradigm termed Parallel-Reasoning and Acting P-ReAct. P-ReAct guides the model to prioritize decoding tool_call instructions, thereby allowing the model to keep thinking while waiting for the tool's return. Experimental results demonstrate that DLLM-Searcher achieves performance comparable to mainstream LLM-based search agents and P-ReAct delivers approximately 15% inference acceleration. Our code is available at https://anonymous.4open.science/r/DLLM-Searcher-553C
PDF251February 12, 2026