LLaDA2.1: Aceleración de la Difusión de Texto mediante Edición de Tokens

Resumen

Si bien LLaDA2.0 demostró el potencial de escalado de los modelos de difusión por bloques de nivel 100B y su inherente paralelización, el delicado equilibrio entre la velocidad de decodificación y la calidad de la generación ha permanecido como una frontera esquiva. Hoy presentamos LLaDA2.1, un cambio de paradigma diseñado para trascender esta disyuntiva. Al integrar de forma fluida la edición Token-a-Token (T2T) en el esquema convencional Máscara-a-Token (M2T), introducimos un esquema de decodificación por umbral conjunto y configurable. Esta innovación estructural da lugar a dos personalidades distintas: el Modo Veloz (Modo S), que audazmente reduce el umbral M2T para eludir las restricciones tradicionales mientras se apoya en T2T para refinar la salida; y el Modo Calidad (Modo Q), que se inclina por umbrales conservadores para asegurar un rendimiento superior en benchmarks con una degradación manejable de la eficiencia. Avanzando en esta evolución, y respaldado por una ventana de contexto expansiva, implementamos el primer marco de trabajo de Aprendizaje por Refuerzo (RL) a gran escala específicamente adaptado para dLLMs, anclado por técnicas especializadas para una estimación estable de gradientes. Esta alineación no solo agudiza la precisión del razonamiento, sino que también eleva la fidelidad en el seguimiento de instrucciones, tendiendo un puente entre la dinámica de difusión y la compleja intención humana. Concluimos este trabajo liberando LLaDA2.1-Mini (16B) y LLaDA2.1-Flash (100B). A lo largo de 33 benchmarks rigurosos, LLaDA2.1 ofrece un sólido rendimiento en las tareas y una velocidad de decodificación ultrarrápida. A pesar de su volumen de 100B, en tareas de codificación alcanza asombrosas tasas de 892 TPS en HumanEval+, 801 TPS en BigCodeBench y 663 TPS en LiveCodeBench.

English

While LLaDA2.0 showcased the scaling potential of 100B-level block-diffusion models and their inherent parallelization, the delicate equilibrium between decoding speed and generation quality has remained an elusive frontier. Today, we unveil LLaDA2.1, a paradigm shift designed to transcend this trade-off. By seamlessly weaving Token-to-Token (T2T) editing into the conventional Mask-to-Token (M2T) scheme, we introduce a joint, configurable threshold-decoding scheme. This structural innovation gives rise to two distinct personas: the Speedy Mode (S Mode), which audaciously lowers the M2T threshold to bypass traditional constraints while relying on T2T to refine the output; and the Quality Mode (Q Mode), which leans into conservative thresholds to secure superior benchmark performances with manageable efficiency degrade. Furthering this evolution, underpinned by an expansive context window, we implement the first large-scale Reinforcement Learning (RL) framework specifically tailored for dLLMs, anchored by specialized techniques for stable gradient estimation. This alignment not only sharpens reasoning precision but also elevates instruction-following fidelity, bridging the chasm between diffusion dynamics and complex human intent. We culminate this work by releasing LLaDA2.1-Mini (16B) and LLaDA2.1-Flash (100B). Across 33 rigorous benchmarks, LLaDA2.1 delivers strong task performance and lightning-fast decoding speed. Despite its 100B volume, on coding tasks it attains an astounding 892 TPS on HumanEval+, 801 TPS on BigCodeBench, and 663 TPS on LiveCodeBench.

LLaDA2.1: Aceleración de la Difusión de Texto mediante Edición de Tokens

LLaDA2.1: Speeding Up Text Diffusion via Token Editing

Resumen

Support