LLaDA2.1: 토큰 편집을 통한 텍스트 확산 가속화
LLaDA2.1: Speeding Up Text Diffusion via Token Editing
February 9, 2026
저자: Tiwei Bie, Maosong Cao, Xiang Cao, Bingsen Chen, Fuyuan Chen, Kun Chen, Lun Du, Daozhuo Feng, Haibo Feng, Mingliang Gong, Zhuocheng Gong, Yanmei Gu, Jian Guan, Kaiyuan Guan, Hongliang He, Zenan Huang, Juyong Jiang, Zhonghui Jiang, Zhenzhong Lan, Chengxi Li, Jianguo Li, Zehuan Li, Huabin Liu, Lin Liu, Guoshan Lu, Yuan Lu, Yuxin Ma, Xingyu Mou, Zhenxuan Pan, Kaida Qiu, Yuji Ren, Jianfeng Tan, Yiding Tian, Zian Wang, Lanning Wei, Tao Wu, Yipeng Xing, Wentao Ye, Liangyu Zha, Tianze Zhang, Xiaolu Zhang, Junbo Zhao, Da Zheng, Hao Zhong, Wanli Zhong, Jun Zhou, Junlin Zhou, Liwang Zhu, Muzhi Zhu, Yihong Zhuang
cs.AI
초록
LLaDA2.0이 100B 규모 블록-확산 모델의 확장 가능성과 내재된 병렬화 잠재력을 입증했으나, 디코딩 속도와 생성 품질 사이의 미묘한 균형은 여전히 달성하기 어려운 과제로 남아 있었습니다. 오늘 우리는 이러한 절충점을 초월하도록 설계된 패러다임 전환인 LLaDA2.1을 공개합니다. 기존의 Mask-to-Token(M2T) 방식에 Token-to-Token(T2T) 편집을 원활하게 결합함으로써, 우리는 구성 가능한 임계값 디코딩을 수행하는 통합 방식을 도입했습니다. 이러한 구조적 혁신은 두 가지 개별 모드를 가능하게 합니다: 기존의 제약을 우회하기 위해 M2T 임계값을 대담하게 낮추고 T2T를 통해 출력을 정제하는 '스피디 모드(S Mode)'; 그리고 관리 가능한 효율성 저하와 함께 우수한 벤치마크 성능을 확보하기 위해 보수적인 임계값을 활용하는 '퀄리티 모드(Q Mode)'가 그것입니다. 이러한 진화를 더욱 발전시켜, 확장된 컨텍스트 창을 기반으로 안정적인 그래디언트 추정을 위한 특화된 기술에 기반한, dLLM에 특화된 최초의 대규모 강화 학습(RL) 프레임워크를 구현했습니다. 이러한 정렬은 추론 정밀도를 높일 뿐만 아니라 지시 따르기의 정확도를 향상시켜, 확산 역학과 복잡한 인간의 의도 사이의 간극을 메웁니다. 우리는 이 연구의 결실로 LLaDA2.1-Mini(16B)와 LLaDA2.1-Flash(100B)를 공개합니다. 33개의 엄격한 벤치마크에서 LLaDA2.1은 강력한 작업 성능과 번개 같은 디코딩 속도를 보여줍니다. 100B라는 규모에도 불구하고, 코딩 작업에서 HumanEval+에서 892 TPS, BigCodeBench에서 801 TPS, LiveCodeBench에서 663 TPS라는 경이로운 속도를 달성했습니다.
English
While LLaDA2.0 showcased the scaling potential of 100B-level block-diffusion models and their inherent parallelization, the delicate equilibrium between decoding speed and generation quality has remained an elusive frontier. Today, we unveil LLaDA2.1, a paradigm shift designed to transcend this trade-off. By seamlessly weaving Token-to-Token (T2T) editing into the conventional Mask-to-Token (M2T) scheme, we introduce a joint, configurable threshold-decoding scheme. This structural innovation gives rise to two distinct personas: the Speedy Mode (S Mode), which audaciously lowers the M2T threshold to bypass traditional constraints while relying on T2T to refine the output; and the Quality Mode (Q Mode), which leans into conservative thresholds to secure superior benchmark performances with manageable efficiency degrade. Furthering this evolution, underpinned by an expansive context window, we implement the first large-scale Reinforcement Learning (RL) framework specifically tailored for dLLMs, anchored by specialized techniques for stable gradient estimation. This alignment not only sharpens reasoning precision but also elevates instruction-following fidelity, bridging the chasm between diffusion dynamics and complex human intent. We culminate this work by releasing LLaDA2.1-Mini (16B) and LLaDA2.1-Flash (100B). Across 33 rigorous benchmarks, LLaDA2.1 delivers strong task performance and lightning-fast decoding speed. Despite its 100B volume, on coding tasks it attains an astounding 892 TPS on HumanEval+, 801 TPS on BigCodeBench, and 663 TPS on LiveCodeBench.