Sumi: Offenes Uniform-Diffusions-Sprachmodell von Grund auf

Zusammenfassung

Diffusionsmodelle haben sich zu einer vielversprechenden Alternative zu autoregressiven Modellen entwickelt. Unter diesen erlauben uniforme Diffusions-Sprachmodelle (UDLMs), dass jedes Token zu jedem Schritt aktualisiert werden kann, was prinzipiell eine flexiblere Generierung ermöglicht. Allerdings wurde bisher kein UDLM sowohl mit großem Parameterumfang als auch mit großem Token-Budget von Grund auf vortrainiert. Sowohl autoregressive Modellierung als auch maskierte Diffusionsmodellierung verfügen bereits über leistungsfähige Modelle in großem Maßstab, die die Gemeinschaft untersuchen und darauf aufbauen kann; uniforme Diffusion hat keine. Ein von Grund auf vortrainiertes UDLM in großem Maßstab würde einen sauberen Referenzpunkt bieten, um Skalierungsverhalten, Generierungsdynamik, Steuerbarkeit und Abwägungen gegenüber etablierten autoregressiven und maskierten Diffusionsmodellen zu untersuchen. Zu diesem Zweck stellen wir Sumi (japanisch für „Tinte“) vor, ein vollständig offenes 7B uniformes Diffusions-Sprachmodell, das von Grund auf mit 1,5 Billionen Token vortrainiert wurde. Sumi schneidet im Vergleich zu autoregressiven Modellen, die mit vergleichbaren Token-Budgets trainiert wurden, bei Benchmarks zu Wissen, Reasoning und Codierung wettbewerbsfähig ab, während es bei Common-Sense-Benchmarks schwächer abschneidet, wo unsere bildungslastige Datenmischung wahrscheinlich dazu beiträgt. Wir veröffentlichen unsere Modellgewichte, Checkpoints und das vollständige Trainingsrezept, einschließlich einer vollständigen Spezifikation der Datenmischung über öffentlich verfügbare Korpora. Wir hoffen, dass diese Veröffentlichung es der Gemeinschaft ermöglicht, native uniforme Diffusion in großem Maßstab zu untersuchen und die Arbeit an ihren bisher kaum verstandenen Aspekten voranzutreiben.

English

Diffusion models have become a promising alternative to autoregressive models. Among these, uniform diffusion language models (UDLMs) permit any token to be updated at any step, in principle enabling more flexible generation. However, no UDLM has yet been pretrained from scratch at both large parameter scale and large token budget. Both autoregressive modeling and masked diffusion modeling already have capable models at scale that the community can study and build on; uniform diffusion has none. A scratch-pretrained UDLM at scale would provide a clean reference point for studying scaling behavior, generation dynamics, controllability, and trade-offs against established autoregressive and masked diffusion models. To this end, we introduce Sumi ("ink" in Japanese), a fully open 7B uniform diffusion language model pretrained from scratch on 1.5T tokens. Sumi performs competitively with autoregressive models trained at comparable token budgets on knowledge, reasoning, and coding benchmarks, while under-performing on commonsense benchmarks, where our education-heavy data mixture is a likely contributor. We release our model weights, checkpoints, and full training recipe, including a complete specification of the data mixture over publicly available corpora. We hope this release enables the community to study native uniform diffusion at scale and catalyzes work on its as-yet poorly understood aspects.