ChatPaper.aiChatPaper

SONAR-LLM: Autoregressiver Transformer, der in Satzembeddings denkt und in Tokens spricht

SONAR-LLM: Autoregressive Transformer that Thinks in Sentence Embeddings and Speaks in Tokens

August 7, 2025
papers.authors: Nikita Dragunov, Temurbek Rahmatullaev, Elizaveta Goncharova, Andrey Kuznetsov, Anton Razzhigaev
cs.AI

papers.abstract

Das kürzlich vorgeschlagene Large Concept Model (LCM) erzeugt Text, indem es eine Sequenz von Satz-Embeddings vorhersagt und entweder mit dem mittleren quadratischen Fehler oder mit Diffusionszielen trainiert wird. Wir präsentieren SONAR-LLM, einen ausschließlich dekodierenden Transformer, der im selben kontinuierlichen SONAR-Embedding-Raum „denkt“, jedoch durch Token-Level-Cross-Entropy überwacht wird, die über den eingefrorenen SONAR-Decoder propagiert wird. Dieses hybride Ziel behält die semantische Abstraktion des LCM bei, eliminiert jedoch dessen Diffusionssampler und stellt ein wahrscheinlichkeitsbasiertes Trainingssignal wieder her. Über Modellgrößen von 39M bis 1,3B Parametern hinweg erreicht SONAR-LLM eine wettbewerbsfähige Generierungsqualität. Wir berichten über Skalierungstrends, Ablationen, Benchmark-Ergebnisse und veröffentlichen den vollständigen Trainingscode sowie alle vortrainierten Checkpoints, um Reproduzierbarkeit und zukünftige Forschung zu fördern.
English
The recently proposed Large Concept Model (LCM) generates text by predicting a sequence of sentence-level embeddings and training with either mean-squared error or diffusion objectives. We present SONAR-LLM, a decoder-only transformer that "thinks" in the same continuous SONAR embedding space, yet is supervised through token-level cross-entropy propagated via the frozen SONAR decoder. This hybrid objective retains the semantic abstraction of LCM while eliminating its diffusion sampler and restoring a likelihood-based training signal. Across model sizes from 39M to 1.3B parameters, SONAR-LLM attains competitive generation quality. We report scaling trends, ablations, benchmark results, and release the complete training code and all pretrained checkpoints to foster reproducibility and future research.
PDF332August 12, 2025