LLaDA2.1: Beschleunigung von Textdiffusion durch Token-Bearbeitung
LLaDA2.1: Speeding Up Text Diffusion via Token Editing
February 9, 2026
papers.authors: Tiwei Bie, Maosong Cao, Xiang Cao, Bingsen Chen, Fuyuan Chen, Kun Chen, Lun Du, Daozhuo Feng, Haibo Feng, Mingliang Gong, Zhuocheng Gong, Yanmei Gu, Jian Guan, Kaiyuan Guan, Hongliang He, Zenan Huang, Juyong Jiang, Zhonghui Jiang, Zhenzhong Lan, Chengxi Li, Jianguo Li, Zehuan Li, Huabin Liu, Lin Liu, Guoshan Lu, Yuan Lu, Yuxin Ma, Xingyu Mou, Zhenxuan Pan, Kaida Qiu, Yuji Ren, Jianfeng Tan, Yiding Tian, Zian Wang, Lanning Wei, Tao Wu, Yipeng Xing, Wentao Ye, Liangyu Zha, Tianze Zhang, Xiaolu Zhang, Junbo Zhao, Da Zheng, Hao Zhong, Wanli Zhong, Jun Zhou, Junlin Zhou, Liwang Zhu, Muzhi Zhu, Yihong Zhuang
cs.AI
papers.abstract
Während LLaDA2.0 das Skalierungspotenzial von Block-Diffusionsmodellen im 100-Milliarden-Parameter-Bereich und deren inhärente Parallelisierbarkeit demonstrierte, ist das empfindliche Gleichgewicht zwischen Decodiergeschwindigkeit und Generierungsqualität eine schwer fassbare Grenze geblieben. Heute enthüllen wir LLaDA2.1, einen Paradigmenwechsel, der diesen Zielkonflikt überwinden soll. Durch die nahtlose Integration von Token-zu-Token (T2T)-Editierung in das konventionelle Mask-zu-Token (M2T)-Schema führen wir ein gemeinsames, konfigurierbares Schwellenwert-Decodierverfahren ein. Diese strukturelle Innovation führt zu zwei distincten Persönlichkeiten: den Schnellmodus (S-Modus), der kühn den M2T-Schwellenwert senkt, um traditionelle Beschränkungen zu umgehen, und sich auf T2T verlässt, um die Ausgabe zu verfeinern; und den Qualitätsmodus (Q-Modus), der auf konservative Schwellenwerte setzt, um überlegene Benchmark-Leistungen mit vertretbarem Effizienzverlust zu sichern.
Als Weiterentwicklung und gestützt auf ein erweitertes Kontextfenster implementieren wir den ersten groß angelegten Reinforcement-Learning (RL)-Rahmen, der speziell für dLLMs maßgeschneidert ist und durch spezielle Techniken zur stabilen Gradientenschätzung verankert wird. Diese Ausrichtung schärft nicht nur die Präzision des logischen Schlussfolgerns, sondern steigert auch die Treue bei der Befolgung von Anweisungen und überbrückt so die Kluft zwischen Diffusionsdynamik und komplexer menschlicher Intentionalität.
Wir beschließen diese Arbeit mit der Veröffentlichung von LLaDA2.1-Mini (16B) und LLaDA2.1-Flash (100B). In 33 rigorosen Benchmarks erzielt LLaDA2.1 eine starke Aufgabenleistung und eine blitzschnelle Decodiergeschwindigkeit. Trotz seiner 100 Milliarden Parameter erreicht es bei Coding-Aufgaben eine erstaunliche Geschwindigkeit von 892 TPS auf HumanEval+, 801 TPS auf BigCodeBench und 663 TPS auf LiveCodeBench.
English
While LLaDA2.0 showcased the scaling potential of 100B-level block-diffusion models and their inherent parallelization, the delicate equilibrium between decoding speed and generation quality has remained an elusive frontier. Today, we unveil LLaDA2.1, a paradigm shift designed to transcend this trade-off. By seamlessly weaving Token-to-Token (T2T) editing into the conventional Mask-to-Token (M2T) scheme, we introduce a joint, configurable threshold-decoding scheme. This structural innovation gives rise to two distinct personas: the Speedy Mode (S Mode), which audaciously lowers the M2T threshold to bypass traditional constraints while relying on T2T to refine the output; and the Quality Mode (Q Mode), which leans into conservative thresholds to secure superior benchmark performances with manageable efficiency degrade. Furthering this evolution, underpinned by an expansive context window, we implement the first large-scale Reinforcement Learning (RL) framework specifically tailored for dLLMs, anchored by specialized techniques for stable gradient estimation. This alignment not only sharpens reasoning precision but also elevates instruction-following fidelity, bridging the chasm between diffusion dynamics and complex human intent. We culminate this work by releasing LLaDA2.1-Mini (16B) and LLaDA2.1-Flash (100B). Across 33 rigorous benchmarks, LLaDA2.1 delivers strong task performance and lightning-fast decoding speed. Despite its 100B volume, on coding tasks it attains an astounding 892 TPS on HumanEval+, 801 TPS on BigCodeBench, and 663 TPS on LiveCodeBench.