ChatPaper.aiChatPaper

LLaDA2.1 : Accélération de la diffusion de texte par édition de tokens

LLaDA2.1: Speeding Up Text Diffusion via Token Editing

February 9, 2026
papers.authors: Tiwei Bie, Maosong Cao, Xiang Cao, Bingsen Chen, Fuyuan Chen, Kun Chen, Lun Du, Daozhuo Feng, Haibo Feng, Mingliang Gong, Zhuocheng Gong, Yanmei Gu, Jian Guan, Kaiyuan Guan, Hongliang He, Zenan Huang, Juyong Jiang, Zhonghui Jiang, Zhenzhong Lan, Chengxi Li, Jianguo Li, Zehuan Li, Huabin Liu, Lin Liu, Guoshan Lu, Yuan Lu, Yuxin Ma, Xingyu Mou, Zhenxuan Pan, Kaida Qiu, Yuji Ren, Jianfeng Tan, Yiding Tian, Zian Wang, Lanning Wei, Tao Wu, Yipeng Xing, Wentao Ye, Liangyu Zha, Tianze Zhang, Xiaolu Zhang, Junbo Zhao, Da Zheng, Hao Zhong, Wanli Zhong, Jun Zhou, Junlin Zhou, Liwang Zhu, Muzhi Zhu, Yihong Zhuang
cs.AI

papers.abstract

Alors que LLaDA2.0 démontrait le potentiel de montée en charge des modèles de diffusion par blocs à l'échelle des 100 milliards de paramètres et leur parallélisation inhérente, l'équilibre délicat entre vitesse de décodage et qualité de génération est resté une frontière insaisissable. Aujourd'hui, nous dévoilons LLaDA2.1, un changement de paradigme conçu pour transcender ce compromis. En intégrant de manière transparente l'édition Token-à-Token (T2T) au schéma conventionnel Masque-à-Token (M2T), nous introduisons un système de décodage à seuil configurable et conjoint. Cette innovation structurelle donne naissance à deux personnalités distinctes : le Mode Rapide (Mode S), qui abaisse audacieusement le seuil M2T pour contourner les contraintes traditionnelles tout en s'appuyant sur T2T pour affiner la sortie ; et le Mode Qualité (Mode Q), qui privilégie des seuils conservateurs pour garantir des performances de référence supérieures avec une dégradation d'efficacité maîtrisée. Poursuivant cette évolution et s'appuyant sur une fenêtre de contexte étendue, nous mettons en œuvre le premier cadre d'Apprentissage par Renforcement (RL) à grande échelle spécialement conçu pour les modèles de langage à diffusion (dLLMs), soutenu par des techniques spécialisées pour l'estimation stable du gradient. Cet alignement affine non seulement la précision du raisonnement mais améliore également la fidélité de suivi des instructions, comblant le fossé entre la dynamique de diffusion et l'intention humaine complexe. Nous couronnons ces travaux par la publication de LLaDA2.1-Mini (16B) et LLaDA2.1-Flash (100B). Sur 33 benchmarks rigoureux, LLaDA2.1 offre de solides performances sur les tâches et une vitesse de décodage extrêmement rapide. Malgré son volume de 100B, sur les tâches de codage, il atteint une vitesse stupéfiante de 892 TPS sur HumanEval+, 801 TPS sur BigCodeBench et 663 TPS sur LiveCodeBench.
English
While LLaDA2.0 showcased the scaling potential of 100B-level block-diffusion models and their inherent parallelization, the delicate equilibrium between decoding speed and generation quality has remained an elusive frontier. Today, we unveil LLaDA2.1, a paradigm shift designed to transcend this trade-off. By seamlessly weaving Token-to-Token (T2T) editing into the conventional Mask-to-Token (M2T) scheme, we introduce a joint, configurable threshold-decoding scheme. This structural innovation gives rise to two distinct personas: the Speedy Mode (S Mode), which audaciously lowers the M2T threshold to bypass traditional constraints while relying on T2T to refine the output; and the Quality Mode (Q Mode), which leans into conservative thresholds to secure superior benchmark performances with manageable efficiency degrade. Furthering this evolution, underpinned by an expansive context window, we implement the first large-scale Reinforcement Learning (RL) framework specifically tailored for dLLMs, anchored by specialized techniques for stable gradient estimation. This alignment not only sharpens reasoning precision but also elevates instruction-following fidelity, bridging the chasm between diffusion dynamics and complex human intent. We culminate this work by releasing LLaDA2.1-Mini (16B) and LLaDA2.1-Flash (100B). Across 33 rigorous benchmarks, LLaDA2.1 delivers strong task performance and lightning-fast decoding speed. Despite its 100B volume, on coding tasks it attains an astounding 892 TPS on HumanEval+, 801 TPS on BigCodeBench, and 663 TPS on LiveCodeBench.
PDF544February 11, 2026