LLaDA2.1: Acelerando a Difusão de Texto por meio de Edição de Tokens

Resumo

Embora o LLaDA2.0 tenha demonstrado o potencial de escalabilidade dos modelos de blocos-difusão de nível 100B e sua paralelização inerente, o delicado equilíbrio entre velocidade de decodificação e qualidade da geração permanecia uma fronteira indescritível. Hoje, revelamos o LLaDA2.1, uma mudança de paradigma concebida para transcender esse trade-off. Ao integrar perfeitamente a edição Token-para-Token (T2T) ao esquema convencional Máscara-para-Token (M2T), introduzimos um esquema de decodificação por limiar conjunto e configurável. Esta inovação estrutural dá origem a duas personas distintas: o Modo Veloz (S Mode), que audaciosamente reduz o limiar M2T para contornar as restrições tradicionais, dependendo do T2T para refinar a saída; e o Modo Qualidade (Q Mode), que adota limiares conservadores para assegurar desempenhos superiores em benchmarks com uma degradação de eficiência controlável. Avançando nesta evolução, e suportado por uma janela de contexto expansiva, implementamos o primeiro framework de Aprendizagem por Reforço (RL) em larga escala especificamente adaptado para dLLMs, ancorado por técnicas especializadas para estimativa estável de gradientes. Este alinhamento não apenas aprimora a precisão do raciocínio, mas também eleva a fidelidade no seguimento de instruções, construindo uma ponte entre a dinâmica de difusão e a complexidade da intenção humana. Concluímos este trabalho com o lançamento do LLaDA2.1-Mini (16B) e do LLaDA2.1-Flash (100B). Através de 33 benchmarks rigorosos, o LLaDA2.1 oferece um forte desempenho em tarefas e uma velocidade de decodificação extremamente rápida. Apesar do seu volume de 100B, em tarefas de codificação atinge impressionantes 892 TPS no HumanEval+, 801 TPS no BigCodeBench e 663 TPS no LiveCodeBench.

English

While LLaDA2.0 showcased the scaling potential of 100B-level block-diffusion models and their inherent parallelization, the delicate equilibrium between decoding speed and generation quality has remained an elusive frontier. Today, we unveil LLaDA2.1, a paradigm shift designed to transcend this trade-off. By seamlessly weaving Token-to-Token (T2T) editing into the conventional Mask-to-Token (M2T) scheme, we introduce a joint, configurable threshold-decoding scheme. This structural innovation gives rise to two distinct personas: the Speedy Mode (S Mode), which audaciously lowers the M2T threshold to bypass traditional constraints while relying on T2T to refine the output; and the Quality Mode (Q Mode), which leans into conservative thresholds to secure superior benchmark performances with manageable efficiency degrade. Furthering this evolution, underpinned by an expansive context window, we implement the first large-scale Reinforcement Learning (RL) framework specifically tailored for dLLMs, anchored by specialized techniques for stable gradient estimation. This alignment not only sharpens reasoning precision but also elevates instruction-following fidelity, bridging the chasm between diffusion dynamics and complex human intent. We culminate this work by releasing LLaDA2.1-Mini (16B) and LLaDA2.1-Flash (100B). Across 33 rigorous benchmarks, LLaDA2.1 delivers strong task performance and lightning-fast decoding speed. Despite its 100B volume, on coding tasks it attains an astounding 892 TPS on HumanEval+, 801 TPS on BigCodeBench, and 663 TPS on LiveCodeBench.