DLLM-Searcher : Adaptation du modèle de langage de grande taille à diffusion pour les agents de recherche
DLLM-Searcher: Adapting Diffusion Large Language Model for Search Agents
February 3, 2026
papers.authors: Jiahao Zhao, Shaoxuan Xu, Zhongxiang Sun, Fengqi Zhu, Jingyang Ou, Yuling Shi, Chongxuan Li, Xiao Zhang, Jun Xu
cs.AI
papers.abstract
Récemment, les modèles de langage de grande taille à diffusion (dLLM) ont démontré des avantages uniques en termes d'efficacité, rendus possibles par leur mécanisme de décodage intrinsèquement parallèle et leur paradigme de génération flexible. Parallèlement, malgré les progrès rapides des agents de recherche, leur déploiement pratique est limité par une contrainte fondamentale, appelée 1) Défi de la Latence : l'exécution séquentielle du raisonnement en plusieurs tours, de l'appel d'outils et de l'attente des réponses des outils dans le paradigme de l'agent ReAct induit une latence de bout en bout importante. Intuitivement, les dLLM peuvent exploiter leurs atouts distincts pour optimiser l'efficacité opérationnelle des agents sous le paradigme ReAct. Concrètement, les modèles de base dLLM existants sont confrontés au 2) Défi des Capacités de l'Agent. C'est-à-dire que les dLLM existants présentent des capacités de raisonnement et d'appel d'outils remarquablement faibles, empêchant ces avantages d'être effectivement réalisés en pratique. Dans cet article, nous proposons DLLM-Searcher, un cadre d'optimisation pour les agents de recherche basés sur les dLLM. Pour résoudre le Défi des Capacités de l'Agent, nous concevons un pipeline de post-entraînement en deux étapes comprenant un Fine-Tuning Supervisé Agentique (Agentic SFT) et une Optimisation des Préférences à Variance Réduite Agentique (Agentic VRPO), qui améliore les capacités de recherche d'information et de raisonnement du modèle de base dLLM. Pour atténuer le Défi de la Latence, nous tirons parti du mécanisme de génération flexible des dLLM et proposons un nouveau paradigme d'agent appelé Raisonnement et Action Parallèles (P-ReAct). P-ReAct guide le modèle à prioriser le décodage des instructions d'appel d'outils, permettant ainsi au modèle de continuer à réfléchir pendant l'attente du retour de l'outil. Les résultats expérimentaux démontrent que DLLM-Searcher atteint des performances comparables aux principaux agents de recherche basés sur les LLM, et que P-ReAct offre une accélération de l'inférence d'environ 15 %. Notre code est disponible à l'adresse https://anonymous.4open.science/r/DLLM-Searcher-553C.
English
Recently, Diffusion Large Language Models (dLLMs) have demonstrated unique efficiency advantages, enabled by their inherently parallel decoding mechanism and flexible generation paradigm. Meanwhile, despite the rapid advancement of Search Agents, their practical deployment is constrained by a fundamental limitation, termed as 1) Latency Challenge: the serial execution of multi-round reasoning, tool calling, and tool response waiting under the ReAct agent paradigm induces severe end-to-end latency. Intuitively, dLLMs can leverage their distinctive strengths to optimize the operational efficiency of agents under the ReAct agent paradigm. Practically, existing dLLM backbones face the 2) Agent Ability Challenge. That is, existing dLLMs exhibit remarkably weak reasoning and tool-calling capabilities, preventing these advantages from being effectively realized in practice. In this paper, we propose DLLM-Searcher, an optimization framework for dLLM-based Search Agents. To solve the Agent Ability Challenge, we design a two-stage post-training pipeline encompassing Agentic Supervised Fine-Tuning (Agentic SFT) and Agentic Variance-Reduced Preference Optimization Agentic VRPO, which enhances the backbone dLLM's information seeking and reasoning capabilities. To mitigate the Latency Challenge, we leverage the flexible generation mechanism of dLLMs and propose a novel agent paradigm termed Parallel-Reasoning and Acting P-ReAct. P-ReAct guides the model to prioritize decoding tool_call instructions, thereby allowing the model to keep thinking while waiting for the tool's return. Experimental results demonstrate that DLLM-Searcher achieves performance comparable to mainstream LLM-based search agents and P-ReAct delivers approximately 15% inference acceleration. Our code is available at https://anonymous.4open.science/r/DLLM-Searcher-553C