SONAR-LLM: Trasformatore Autoregressivo che Pensa in Embedding di Frasi e Parla in Token
SONAR-LLM: Autoregressive Transformer that Thinks in Sentence Embeddings and Speaks in Tokens
August 7, 2025
Autori: Nikita Dragunov, Temurbek Rahmatullaev, Elizaveta Goncharova, Andrey Kuznetsov, Anton Razzhigaev
cs.AI
Abstract
Il recentemente proposto Large Concept Model (LCM) genera testo prevedendo una sequenza di embedding a livello di frase e addestrandosi con obiettivi di errore quadratico medio o di diffusione. Presentiamo SONAR-LLM, un trasformatore di tipo decoder-only che "pensa" nello stesso spazio continuo di embedding SONAR, ma è supervisionato attraverso l'entropia incrociata a livello di token propagata tramite il decoder SONAR congelato. Questo obiettivo ibrido mantiene l'astrazione semantica dell'LCM eliminando il suo campionatore di diffusione e ripristinando un segnale di addestramento basato sulla verosimiglianza. Attraverso dimensioni del modello che vanno da 39M a 1.3B parametri, SONAR-LLM raggiunge una qualità di generazione competitiva. Riportiamo tendenze di scalabilità, ablazioni, risultati di benchmark e rilasciamo il codice completo di addestramento e tutti i checkpoint pre-addestrati per favorire la riproducibilità e la ricerca futura.
English
The recently proposed Large Concept Model (LCM) generates text by predicting
a sequence of sentence-level embeddings and training with either mean-squared
error or diffusion objectives. We present SONAR-LLM, a decoder-only transformer
that "thinks" in the same continuous SONAR embedding space, yet is supervised
through token-level cross-entropy propagated via the frozen SONAR decoder. This
hybrid objective retains the semantic abstraction of LCM while eliminating its
diffusion sampler and restoring a likelihood-based training signal. Across
model sizes from 39M to 1.3B parameters, SONAR-LLM attains competitive
generation quality. We report scaling trends, ablations, benchmark results, and
release the complete training code and all pretrained checkpoints to foster
reproducibility and future research.