LLaDA2.1: Versnelling van tekstdiffusie via tokenbewerking

Samenvatting

Hoewel LLaDA2.0 het schaalpotentieel van 100B-niveau block-diffusiemodellen en hun inherente parallelisatie demonstreerde, is het delicate evenwicht tussen decodersnelheid en generatiekwaliteit een ongrijpbare grens gebleven. Vandaag onthullen we LLaDA2.1, een paradigmaverschuiving ontworpen om deze afweging te overstijgen. Door Token-to-Token (T2T)-bewerking naadloos te verweven in het conventionele Mask-to-Token (M2T)-schema, introduceren we een gezamenlijk, configureerbaar drempeldecoderingsschema. Deze structurele innovatie geeft aanleiding tot twee verschillende persona's: de Snelheidsmodus (S-modus), die onverschrokken de M2T-drempel verlaagt om traditionele beperkingen te omzeilen terwijl hij vertrouwt op T2T om de output te verfijnen; en de Kwaliteitsmodus (Q-modus), die vertrouwt op conservatieve drempels om superieure benchmarkprestaties te waarborgen met een beheersbaar efficiëntieverlies. Voortbouwend op deze evolutie, ondersteund door een uitgebreid contextvenster, implementeren we het eerste grootschalige Reinforcement Learning (RL)-raamwerk specifiek toegesneden op dLLM's, verankerd door gespecialiseerde technieken voor stabiele gradiëntschatting. Deze afstemming scherpt niet alleen de redeneernauwkeurigheid aan, maar verhoogt ook de nauwgezetheid van instructieopvolging, waardoor de kloof tussen diffusiedynamiek en complexe menselijke intentie wordt overbrugd. We sluiten dit werk af met de release van LLaDA2.1-Mini (16B) en LLaDA2.1-Flash (100B). Over 33 rigoureuze benchmarks heen levert LLaDA2.1 sterke taakprestaties en bliksemsnelle decodersnelheid. Ondanks zijn 100B-volume behaalt het op codeertaken een verbijsterende 892 TPS op HumanEval+, 801 TPS op BigCodeBench en 663 TPS op LiveCodeBench.

English

While LLaDA2.0 showcased the scaling potential of 100B-level block-diffusion models and their inherent parallelization, the delicate equilibrium between decoding speed and generation quality has remained an elusive frontier. Today, we unveil LLaDA2.1, a paradigm shift designed to transcend this trade-off. By seamlessly weaving Token-to-Token (T2T) editing into the conventional Mask-to-Token (M2T) scheme, we introduce a joint, configurable threshold-decoding scheme. This structural innovation gives rise to two distinct personas: the Speedy Mode (S Mode), which audaciously lowers the M2T threshold to bypass traditional constraints while relying on T2T to refine the output; and the Quality Mode (Q Mode), which leans into conservative thresholds to secure superior benchmark performances with manageable efficiency degrade. Furthering this evolution, underpinned by an expansive context window, we implement the first large-scale Reinforcement Learning (RL) framework specifically tailored for dLLMs, anchored by specialized techniques for stable gradient estimation. This alignment not only sharpens reasoning precision but also elevates instruction-following fidelity, bridging the chasm between diffusion dynamics and complex human intent. We culminate this work by releasing LLaDA2.1-Mini (16B) and LLaDA2.1-Flash (100B). Across 33 rigorous benchmarks, LLaDA2.1 delivers strong task performance and lightning-fast decoding speed. Despite its 100B volume, on coding tasks it attains an astounding 892 TPS on HumanEval+, 801 TPS on BigCodeBench, and 663 TPS on LiveCodeBench.

LLaDA2.1: Versnelling van tekstdiffusie via tokenbewerking

LLaDA2.1: Speeding Up Text Diffusion via Token Editing

Samenvatting

Support