SONAR-LLM: Autoregressieve Transformer die denkt in zinembeddingen en spreekt in tokens
SONAR-LLM: Autoregressive Transformer that Thinks in Sentence Embeddings and Speaks in Tokens
August 7, 2025
Auteurs: Nikita Dragunov, Temurbek Rahmatullaev, Elizaveta Goncharova, Andrey Kuznetsov, Anton Razzhigaev
cs.AI
Samenvatting
Het recent voorgestelde Large Concept Model (LCM) genereert tekst door een reeks zin-niveau embeddings te voorspellen en te trainen met ofwel gemiddelde kwadratische fout of diffusie-doelstellingen. Wij presenteren SONAR-LLM, een decoder-only transformer die "denkt" in dezelfde continue SONAR-embeddingruimte, maar wordt gesuperviseerd via token-niveau kruisentropie die wordt doorgegeven via de bevroren SONAR-decoder. Dit hybride doel behoudt de semantische abstractie van LCM terwijl het de diffusiesampler elimineert en een op waarschijnlijkheid gebaseerd trainingssignaal herstelt. Over modelgroottes van 39M tot 1,3B parameters bereikt SONAR-LLM een competitieve generatiekwaliteit. Wij rapporteren schaalbaarheidstrends, ablatiestudies, benchmarkresultaten en geven de volledige trainingscode en alle vooraf getrainde checkpoints vrij om reproduceerbaarheid en toekomstig onderzoek te bevorderen.
English
The recently proposed Large Concept Model (LCM) generates text by predicting
a sequence of sentence-level embeddings and training with either mean-squared
error or diffusion objectives. We present SONAR-LLM, a decoder-only transformer
that "thinks" in the same continuous SONAR embedding space, yet is supervised
through token-level cross-entropy propagated via the frozen SONAR decoder. This
hybrid objective retains the semantic abstraction of LCM while eliminating its
diffusion sampler and restoring a likelihood-based training signal. Across
model sizes from 39M to 1.3B parameters, SONAR-LLM attains competitive
generation quality. We report scaling trends, ablations, benchmark results, and
release the complete training code and all pretrained checkpoints to foster
reproducibility and future research.