ChatPaper.aiChatPaper

SONAR-LLM: Trasformatore Autoregressivo che Pensa in Embedding di Frasi e Parla in Token

SONAR-LLM: Autoregressive Transformer that Thinks in Sentence Embeddings and Speaks in Tokens

August 7, 2025
Autori: Nikita Dragunov, Temurbek Rahmatullaev, Elizaveta Goncharova, Andrey Kuznetsov, Anton Razzhigaev
cs.AI

Abstract

Il recentemente proposto Large Concept Model (LCM) genera testo prevedendo una sequenza di embedding a livello di frase e addestrandosi con obiettivi di errore quadratico medio o di diffusione. Presentiamo SONAR-LLM, un trasformatore di tipo decoder-only che "pensa" nello stesso spazio continuo di embedding SONAR, ma è supervisionato attraverso l'entropia incrociata a livello di token propagata tramite il decoder SONAR congelato. Questo obiettivo ibrido mantiene l'astrazione semantica dell'LCM eliminando il suo campionatore di diffusione e ripristinando un segnale di addestramento basato sulla verosimiglianza. Attraverso dimensioni del modello che vanno da 39M a 1.3B parametri, SONAR-LLM raggiunge una qualità di generazione competitiva. Riportiamo tendenze di scalabilità, ablazioni, risultati di benchmark e rilasciamo il codice completo di addestramento e tutti i checkpoint pre-addestrati per favorire la riproducibilità e la ricerca futura.
English
The recently proposed Large Concept Model (LCM) generates text by predicting a sequence of sentence-level embeddings and training with either mean-squared error or diffusion objectives. We present SONAR-LLM, a decoder-only transformer that "thinks" in the same continuous SONAR embedding space, yet is supervised through token-level cross-entropy propagated via the frozen SONAR decoder. This hybrid objective retains the semantic abstraction of LCM while eliminating its diffusion sampler and restoring a likelihood-based training signal. Across model sizes from 39M to 1.3B parameters, SONAR-LLM attains competitive generation quality. We report scaling trends, ablations, benchmark results, and release the complete training code and all pretrained checkpoints to foster reproducibility and future research.
PDF463August 12, 2025