Comportamento de Escala de Modelos de Linguagem de Difusão Discreta

Resumo

O pré-treinamento de LLMs modernos consome quantidades vastas de capacidade computacional e dados de treinamento, tornando o comportamento de escalonamento, ou leis de escalonamento, de diferentes modelos um fator distintivo fundamental. Modelos de linguagem por difusão discreta (DLMs) foram propostos como uma alternativa aos modelos de linguagem autorregressivos (ALMs). No entanto, o seu comportamento de escalonamento ainda não foi totalmente explorado, com trabalhos anteriores sugerindo que eles requerem mais dados e poder computacional para igualar o desempenho dos ALMs. Nós estudamos o comportamento de escalonamento de DLMs em diferentes tipos de ruído, interpolando suavemente entre difusão mascarada e difusão uniforme, prestando atenção rigorosa a hiperparâmetros cruciais, como tamanho do lote e taxa de aprendizagem. Nossos experimentos revelam que o comportamento de escalonamento dos DLMs depende fortemente do tipo de ruído e é consideravelmente diferente do dos ALMs. Embora todos os tipos de ruído convirjam para valores de perda semelhantes no escalonamento limitado por computação, descobrimos que a difusão uniforme requer mais parâmetros e menos dados para um treinamento computacionalmente eficiente em comparação com a difusão mascarada, tornando-a um candidato promissor em cenários limitados por dados. Escalonamos nosso modelo de difusão uniforme até 10 bilhões de parâmetros, treinado com 10^{22} FLOPs, confirmando o comportamento de escalonamento previsto e tornando-o o maior modelo de difusão uniforme publicamente conhecido até à data.

English

Modern LLM pre-training consumes vast amounts of compute and training data, making the scaling behavior, or scaling laws, of different models a key distinguishing factor. Discrete diffusion language models (DLMs) have been proposed as an alternative to autoregressive language models (ALMs). However, their scaling behavior has not yet been fully explored, with prior work suggesting that they require more data and compute to match the performance of ALMs. We study the scaling behavior of DLMs on different noise types by smoothly interpolating between masked and uniform diffusion while paying close attention to crucial hyperparameters such as batch size and learning rate. Our experiments reveal that the scaling behavior of DLMs strongly depends on the noise type and is considerably different from ALMs. While all noise types converge to similar loss values in compute-bound scaling, we find that uniform diffusion requires more parameters and less data for compute-efficient training compared to masked diffusion, making them a promising candidate in data-bound settings. We scale our uniform diffusion model up to 10B parameters trained for 10^{22} FLOPs, confirming the predicted scaling behavior and making it the largest publicly known uniform diffusion model to date.

Comportamento de Escala de Modelos de Linguagem de Difusão Discreta

Scaling Behavior of Discrete Diffusion Language Models

Resumo

Support