SONAR-LLM : Transformeur autorégressif qui pense en embeddings de phrases et parle en tokens
SONAR-LLM: Autoregressive Transformer that Thinks in Sentence Embeddings and Speaks in Tokens
August 7, 2025
papers.authors: Nikita Dragunov, Temurbek Rahmatullaev, Elizaveta Goncharova, Andrey Kuznetsov, Anton Razzhigaev
cs.AI
papers.abstract
Le modèle récemment proposé, le Large Concept Model (LCM), génère du texte en prédisant une séquence d'embeddings au niveau de la phrase et en s'entraînant avec des objectifs d'erreur quadratique moyenne ou de diffusion. Nous présentons SONAR-LLM, un transformeur à décodeur unique qui « pense » dans le même espace d'embedding continu SONAR, mais qui est supervisé via une entropie croisée au niveau des tokens propagée par le décodeur SONAR figé. Cet objectif hybride conserve l'abstraction sémantique du LCM tout en éliminant son échantillonneur de diffusion et en restaurant un signal d'entraînement basé sur la vraisemblance. Pour des tailles de modèle allant de 39 millions à 1,3 milliard de paramètres, SONAR-LLM atteint une qualité de génération compétitive. Nous rapportons les tendances de mise à l'échelle, les ablations, les résultats de benchmarks, et publions l'intégralité du code d'entraînement ainsi que tous les points de contrôle pré-entraînés pour favoriser la reproductibilité et les recherches futures.
English
The recently proposed Large Concept Model (LCM) generates text by predicting
a sequence of sentence-level embeddings and training with either mean-squared
error or diffusion objectives. We present SONAR-LLM, a decoder-only transformer
that "thinks" in the same continuous SONAR embedding space, yet is supervised
through token-level cross-entropy propagated via the frozen SONAR decoder. This
hybrid objective retains the semantic abstraction of LCM while eliminating its
diffusion sampler and restoring a likelihood-based training signal. Across
model sizes from 39M to 1.3B parameters, SONAR-LLM attains competitive
generation quality. We report scaling trends, ablations, benchmark results, and
release the complete training code and all pretrained checkpoints to foster
reproducibility and future research.