Sumi : Modèle de Langage à Diffusion Uniforme Ouvert à partir de zéro

Résumé

Les modèles de diffusion sont devenus une alternative prometteuse aux modèles autorégressifs. Parmi eux, les modèles de langage à diffusion uniforme (UDLM) permettent de mettre à jour n'importe quel token à n'importe quelle étape, offrant en principe une génération plus flexible. Cependant, aucun UDLM n'a encore été pré-entraîné à partir de zéro à la fois à grande échelle paramétrique et avec un budget de tokens conséquent. La modélisation autorégressive et la modélisation par diffusion masquée disposent déjà de modèles performants à grande échelle que la communauté peut étudier et sur lesquels s'appuyer ; ce n'est pas le cas pour la diffusion uniforme. Un UDLM pré-entraîné à partir de zéro à grande échelle fournirait un point de référence clair pour étudier le comportement de mise à l'échelle, la dynamique de génération, la contrôlabilité et les compromis par rapport aux modèles autorégressifs et à diffusion masquée établis. Dans cette optique, nous présentons Sumi (« encre » en japonais), un modèle de langage à diffusion uniforme de 7B entièrement ouvert, pré-entraîné à partir de zéro sur 1,5T tokens. Sumi obtient des performances compétitives avec les modèles autorégressifs entraînés sur des budgets de tokens comparables dans les domaines des connaissances, du raisonnement et du codage, mais sous-performe dans les références de bon sens, où notre mélange de données axé sur l'éducation est probablement un facteur contributif. Nous publions les poids de notre modèle, ses points de contrôle et la recette complète d'entraînement, y compris une spécification complète du mélange de données à partir de corpus publics. Nous espérons que cette publication permettra à la communauté d'étudier la diffusion uniforme native à grande échelle et catalysera les travaux sur ses aspects encore mal compris.

English

Diffusion models have become a promising alternative to autoregressive models. Among these, uniform diffusion language models (UDLMs) permit any token to be updated at any step, in principle enabling more flexible generation. However, no UDLM has yet been pretrained from scratch at both large parameter scale and large token budget. Both autoregressive modeling and masked diffusion modeling already have capable models at scale that the community can study and build on; uniform diffusion has none. A scratch-pretrained UDLM at scale would provide a clean reference point for studying scaling behavior, generation dynamics, controllability, and trade-offs against established autoregressive and masked diffusion models. To this end, we introduce Sumi ("ink" in Japanese), a fully open 7B uniform diffusion language model pretrained from scratch on 1.5T tokens. Sumi performs competitively with autoregressive models trained at comparable token budgets on knowledge, reasoning, and coding benchmarks, while under-performing on commonsense benchmarks, where our education-heavy data mixture is a likely contributor. We release our model weights, checkpoints, and full training recipe, including a complete specification of the data mixture over publicly available corpora. We hope this release enables the community to study native uniform diffusion at scale and catalyzes work on its as-yet poorly understood aspects.