ParallelBench : Comprendre les compromis du décodage parallèle dans les modèles de langage à diffusion

papers.abstract

Alors que la plupart des LLM autorégressifs sont contraints à un décodage séquentiel, les LLM à diffusion (dLLM) suscitent un intérêt croissant pour leur potentiel à accélérer considérablement l'inférence grâce au décodage parallèle. Malgré cette promesse, l'hypothèse d'indépendance conditionnelle dans les dLLM fait que le décodage parallèle ignore les dépendances entre les tokens, dégradant inévitablement la qualité de génération lorsque ces dépendances sont fortes. Cependant, les travaux existants négligent largement ces défis inhérents, et les évaluations sur des benchmarks standards (par exemple, en mathématiques et en codage) ne suffisent pas à capturer la dégradation de qualité causée par le décodage parallèle. Pour combler cette lacune, nous proposons d'abord une analyse informationnelle du décodage parallèle. Nous menons ensuite des études de cas sur des opérations de listes synthétiques analytiquement traitables, en examinant à la fois la distribution des données et les stratégies de décodage, offrant ainsi des insights quantitatifs qui mettent en lumière les limitations fondamentales du décodage parallèle. Sur la base de ces insights, nous proposons ParallelBench, le premier benchmark spécifiquement conçu pour les dLLM, comprenant des tâches réalistes qui sont triviales pour les humains et les LLM autorégressifs mais exceptionnellement difficiles pour les dLLM sous décodage parallèle. En utilisant ParallelBench, nous analysons systématiquement à la fois les dLLM et les LLM autorégressifs, révélant que : (i) les dLLM sous décodage parallèle peuvent subir une dégradation dramatique de la qualité dans des scénarios réels, et (ii) les stratégies actuelles de décodage parallèle peinent à adapter leur degré de parallélisme en fonction de la difficulté de la tâche, échouant ainsi à obtenir une accélération significative sans compromettre la qualité. Nos résultats soulignent le besoin pressant de méthodes de décodage innovantes capables de surmonter le compromis actuel entre vitesse et qualité. Nous publions notre benchmark pour contribuer à accélérer le développement de dLLM véritablement efficaces.

English

While most autoregressive LLMs are constrained to one-by-one decoding, diffusion LLMs (dLLMs) have attracted growing interest for their potential to dramatically accelerate inference through parallel decoding. Despite this promise, the conditional independence assumption in dLLMs causes parallel decoding to ignore token dependencies, inevitably degrading generation quality when these dependencies are strong. However, existing works largely overlook these inherent challenges, and evaluations on standard benchmarks (e.g., math and coding) are not sufficient to capture the quality degradation caused by parallel decoding. To address this gap, we first provide an information-theoretic analysis of parallel decoding. We then conduct case studies on analytically tractable synthetic list operations from both data distribution and decoding strategy perspectives, offering quantitative insights that highlight the fundamental limitations of parallel decoding. Building on these insights, we propose ParallelBench, the first benchmark specifically designed for dLLMs, featuring realistic tasks that are trivial for humans and autoregressive LLMs yet exceptionally challenging for dLLMs under parallel decoding. Using ParallelBench, we systematically analyze both dLLMs and autoregressive LLMs, revealing that: (i) dLLMs under parallel decoding can suffer dramatic quality degradation in real-world scenarios, and (ii) current parallel decoding strategies struggle to adapt their degree of parallelism based on task difficulty, thus failing to achieve meaningful speedup without compromising quality. Our findings underscore the pressing need for innovative decoding methods that can overcome the current speed-quality trade-off. We release our benchmark to help accelerate the development of truly efficient dLLMs.

ParallelBench : Comprendre les compromis du décodage parallèle dans les modèles de langage à diffusion

ParallelBench: Understanding the Trade-offs of Parallel Decoding in Diffusion LLMs

papers.abstract

Support