LLaDA2.1: Accelerazione della Diffusione di Testo tramite Modifica dei Token

Abstract

Mentre LLaDA2.0 ha dimostrato il potenziale di scalabilità dei modelli block-diffusion da 100 miliardi di parametri e la loro intrinseca parallelizzazione, il delicato equilibrio tra velocità di decodifica e qualità della generazione è rimasto una frontiera elusiva. Oggi sveliamo LLaDA2.1, un cambio di paradigma progettato per trascendere questo compromesso. Integrando perfettamente l'editing Token-to-Token (T2T) nel convenzionale schema Mask-to-Token (M2T), introduciamo uno schema di decodifica congiunto e configurabile basato su soglie. Questa innovazione strutturale dà vita a due distinte modalità operative: la Modalità Velocità (S Mode), che abbassa audacemente la soglia M2T per aggirare i vincoli tradizionali affidandosi al T2T per affinare l'output; e la Modalità Qualità (Q Mode), che utilizza soglie conservative per garantire prestazioni superiori nei benchmark con una degradazione dell'efficienza contenuta. Spingendo oltre questa evoluzione, e supportati da un ampio contesto di finestra, implementiamo il primo framework su larga scala di Apprendimento per Rinforzo (RL) specificamente progettato per i dLLM, ancorato da tecniche specializzate per una stima stabile del gradiente. Questo allineamento non solo affila la precisione del ragionamento ma eleva anche la fedeltà nel seguire le istruzioni, colmando il divario tra la dinamica di diffusione e l'intento umano complesso. Concludiamo questo lavoro rilasciando LLaDA2.1-Mini (16B) e LLaDA2.1-Flash (100B). Attraverso 33 benchmark rigorosi, LLaDA2.1 fornisce solide prestazioni nelle attività e una velocità di decodifica fulminea. Nonostante i suoi 100 miliardi di parametri, nelle attività di coding raggiunge risultati strabilianti: 892 TPS su HumanEval+, 801 TPS su BigCodeBench e 663 TPS su LiveCodeBench.

English

While LLaDA2.0 showcased the scaling potential of 100B-level block-diffusion models and their inherent parallelization, the delicate equilibrium between decoding speed and generation quality has remained an elusive frontier. Today, we unveil LLaDA2.1, a paradigm shift designed to transcend this trade-off. By seamlessly weaving Token-to-Token (T2T) editing into the conventional Mask-to-Token (M2T) scheme, we introduce a joint, configurable threshold-decoding scheme. This structural innovation gives rise to two distinct personas: the Speedy Mode (S Mode), which audaciously lowers the M2T threshold to bypass traditional constraints while relying on T2T to refine the output; and the Quality Mode (Q Mode), which leans into conservative thresholds to secure superior benchmark performances with manageable efficiency degrade. Furthering this evolution, underpinned by an expansive context window, we implement the first large-scale Reinforcement Learning (RL) framework specifically tailored for dLLMs, anchored by specialized techniques for stable gradient estimation. This alignment not only sharpens reasoning precision but also elevates instruction-following fidelity, bridging the chasm between diffusion dynamics and complex human intent. We culminate this work by releasing LLaDA2.1-Mini (16B) and LLaDA2.1-Flash (100B). Across 33 rigorous benchmarks, LLaDA2.1 delivers strong task performance and lightning-fast decoding speed. Despite its 100B volume, on coding tasks it attains an astounding 892 TPS on HumanEval+, 801 TPS on BigCodeBench, and 663 TPS on LiveCodeBench.

LLaDA2.1: Accelerazione della Diffusione di Testo tramite Modifica dei Token

LLaDA2.1: Speeding Up Text Diffusion via Token Editing

Abstract

Support