ChatPaper.aiChatPaper

Масштабное поведение дискретных диффузионных языковых моделей

Scaling Behavior of Discrete Diffusion Language Models

December 11, 2025
Авторы: Dimitri von Rütte, Janis Fluri, Omead Pooladzandi, Bernhard Schölkopf, Thomas Hofmann, Antonio Orvieto
cs.AI

Аннотация

Современное предобучение больших языковых моделей (LLM) требует огромных вычислительных ресурсов и объемов обучающих данных, что делает масштабируемость, или законы масштабирования, различных моделей ключевым отличительным фактором. Дискретные диффузионные языковые модели (DLM) были предложены в качестве альтернативы авторегрессионным языковым моделям (ALM). Однако их масштабируемость еще не была полностью изучена, при этом предыдущие работы указывают на то, что для достижения производительности ALM им требуется больше данных и вычислений. Мы исследуем масштабируемость DLM с различными типами шума, плавно интерполируя между маскированной и равномерной диффузией, уделяя пристальное внимание ключевым гиперпараметрам, таким как размер пакета и скорость обучения. Наши эксперименты показывают, что масштабируемость DLM сильно зависит от типа шума и существенно отличается от ALM. Хотя все типы шума сходятся к схожим значениям потерь при масштабировании, ограниченном вычислениями, мы обнаружили, что равномерная диффузия требует больше параметров и меньше данных для эффективного с вычислительной точки зрения обучения по сравнению с маскированной диффузией, что делает ее перспективным кандидатом для сценариев с ограниченными данными. Мы масштабировали нашу модель равномерной диффузии до 10 миллиардов параметров, обучив ее на 10²² FLOP, что подтвердило прогнозируемое поведение масштабирования и сделало ее крупнейшей на сегодняшний день публично известной моделью равномерной диффузии.
English
Modern LLM pre-training consumes vast amounts of compute and training data, making the scaling behavior, or scaling laws, of different models a key distinguishing factor. Discrete diffusion language models (DLMs) have been proposed as an alternative to autoregressive language models (ALMs). However, their scaling behavior has not yet been fully explored, with prior work suggesting that they require more data and compute to match the performance of ALMs. We study the scaling behavior of DLMs on different noise types by smoothly interpolating between masked and uniform diffusion while paying close attention to crucial hyperparameters such as batch size and learning rate. Our experiments reveal that the scaling behavior of DLMs strongly depends on the noise type and is considerably different from ALMs. While all noise types converge to similar loss values in compute-bound scaling, we find that uniform diffusion requires more parameters and less data for compute-efficient training compared to masked diffusion, making them a promising candidate in data-bound settings. We scale our uniform diffusion model up to 10B parameters trained for 10^{22} FLOPs, confirming the predicted scaling behavior and making it the largest publicly known uniform diffusion model to date.
PDF52December 17, 2025