LLaDA2.1: Ускорение текстовой диффузии за счёт редактирования токенов

Аннотация

В то время как LLaDA 2.0 продемонстрировала потенциал масштабирования блочно-диффузионных моделей уровня 100 млрд параметров и их присущий параллелизм, хрупкое равновесие между скоростью декодирования и качеством генерации оставалось труднодостижимым рубежом. Сегодня мы представляем LLaDA 2.1 — смену парадигмы, призванную преодолеть этот компромисс. Бесшовно интегрируя Token-to-Token (T2T) редактирование в традиционную схему Mask-to-Token (M2T), мы вводим совместную, настраиваемую схему порогового декодирования. Эта структурная инновация порождает два различных режима: Скоростной режим (S-режим), который смело понижает M2T-порог для обхода традиционных ограничений, полагаясь на T2T для улучшения выходных данных; и Качественный режим (Q-режим), который использует консервативные пороги для обеспечения превосходных результатов в бенчмарках при приемлемом снижении эффективности. Углубляя эту эволюцию и опираясь на расширенное контекстное окно, мы реализуем первую крупномасштабную систему обучения с подкреплением (RL), специально разработанную для диффузионных больших языковых моделей (dLLM) и основанную на специализированных методах стабильной оценки градиента. Эта адаптация не только повышает точность рассуждений, но и улучшает верность следования инструкциям, преодолевая разрыв между динамикой диффузии и сложными человеческими намерениями. Венцом этой работы является выпуск моделей LLaDA 2.1-Mini (16B) и LLaDA 2.1-Flash (100B). В ходе 33 строгих бенчмарков LLaDA 2.1 демонстрирует высокую производительность на задачах и молниеносную скорость декодирования. Несмотря на объем в 100 млрд параметров, на задачах по программированию она достигает потрясающих 892 TPS на HumanEval+, 801 TPS на BigCodeBench и 663 TPS на LiveCodeBench.

English

While LLaDA2.0 showcased the scaling potential of 100B-level block-diffusion models and their inherent parallelization, the delicate equilibrium between decoding speed and generation quality has remained an elusive frontier. Today, we unveil LLaDA2.1, a paradigm shift designed to transcend this trade-off. By seamlessly weaving Token-to-Token (T2T) editing into the conventional Mask-to-Token (M2T) scheme, we introduce a joint, configurable threshold-decoding scheme. This structural innovation gives rise to two distinct personas: the Speedy Mode (S Mode), which audaciously lowers the M2T threshold to bypass traditional constraints while relying on T2T to refine the output; and the Quality Mode (Q Mode), which leans into conservative thresholds to secure superior benchmark performances with manageable efficiency degrade. Furthering this evolution, underpinned by an expansive context window, we implement the first large-scale Reinforcement Learning (RL) framework specifically tailored for dLLMs, anchored by specialized techniques for stable gradient estimation. This alignment not only sharpens reasoning precision but also elevates instruction-following fidelity, bridging the chasm between diffusion dynamics and complex human intent. We culminate this work by releasing LLaDA2.1-Mini (16B) and LLaDA2.1-Flash (100B). Across 33 rigorous benchmarks, LLaDA2.1 delivers strong task performance and lightning-fast decoding speed. Despite its 100B volume, on coding tasks it attains an astounding 892 TPS on HumanEval+, 801 TPS on BigCodeBench, and 663 TPS on LiveCodeBench.

LLaDA2.1: Ускорение текстовой диффузии за счёт редактирования токенов

LLaDA2.1: Speeding Up Text Diffusion via Token Editing

Аннотация

Support