ChatPaper.aiChatPaper

dParallel : Décodage parallèle apprenable pour les dLLMs

dParallel: Learnable Parallel Decoding for dLLMs

September 30, 2025
papers.authors: Zigeng Chen, Gongfan Fang, Xinyin Ma, Ruonan Yu, Xinchao Wang
cs.AI

papers.abstract

Les modèles de langage à diffusion (dLLMs) ont récemment suscité un intérêt considérable au sein de la communauté de recherche en tant qu'alternative prometteuse à la génération autorégressive, offrant une prédiction parallèle de tokens et une latence d'inférence réduite. Cependant, leur potentiel de décodage parallèle reste largement inexploité, car les modèles open-source existants nécessitent encore un nombre de pas de décodage presque équivalent à la longueur des tokens pour garantir leurs performances. Pour remédier à cela, nous introduisons dParallel, une méthode simple et efficace qui libère le parallélisme inhérent des dLLMs pour un échantillonnage rapide. Nous identifions que le principal goulot d'étranglement pour le décodage parallèle réside dans la convergence séquentielle de la certitude pour les tokens masqués. En nous appuyant sur cette observation, nous introduisons le cœur de notre approche : la distillation par forçage de certitude, une stratégie d'entraînement novatrice qui distille le modèle pour qu'il suive ses trajectoires d'échantillonnage originales tout en l'obligeant à atteindre une certitude élevée sur les tokens masqués plus rapidement et en parallèle. Des expériences approfondies sur divers benchmarks démontrent que notre méthode peut réduire considérablement le nombre de pas de décodage tout en maintenant les performances. Lorsqu'elle est appliquée au modèle LLaDA-8B-Instruct, dParallel réduit les pas de décodage de 256 à 30 sur GSM8K, obtenant une accélération de 8,5x sans dégradation des performances. Sur le benchmark MBPP, elle réduit les pas de décodage de 256 à 24, entraînant une accélération de 10,5x tout en conservant la précision. Notre code est disponible à l'adresse suivante : https://github.com/czg1225/dParallel.
English
Diffusion large language models (dLLMs) have recently drawn considerable attention within the research community as a promising alternative to autoregressive generation, offering parallel token prediction and lower inference latency. Yet, their parallel decoding potential remains largely underexplored, as existing open-source models still require nearly token-length decoding steps to ensure performance. To address this, we introduce dParallel, a simple and effective method that unlocks the inherent parallelism of dLLMs for fast sampling. We identify that the key bottleneck to parallel decoding arises from the sequential certainty convergence for masked tokens. Building on this insight, we introduce the core of our approach: certainty-forcing distillation, a novel training strategy that distills the model to follow its original sampling trajectories while enforcing it to achieve high certainty on masked tokens more rapidly and in parallel. Extensive experiments across various benchmarks demonstrate that our method can dramatically reduce the number of decoding steps while maintaining performance. When applied to the LLaDA-8B-Instruct model, dParallel reduces decoding steps from 256 to 30 on GSM8K, achieving an 8.5x speedup without performance degradation. On the MBPP benchmark, it cuts decoding steps from 256 to 24, resulting in a 10.5x speedup while maintaining accuracy. Our code is available at https://github.com/czg1225/dParallel
PDF121October 1, 2025