SONAR-LLM: Transformador Autoregressivo que Pensa em Embeddings de Frases e Fala em Tokens
SONAR-LLM: Autoregressive Transformer that Thinks in Sentence Embeddings and Speaks in Tokens
August 7, 2025
Autores: Nikita Dragunov, Temurbek Rahmatullaev, Elizaveta Goncharova, Andrey Kuznetsov, Anton Razzhigaev
cs.AI
Resumo
O recentemente proposto Large Concept Model (LCM) gera texto prevendo uma sequência de embeddings em nível de frase e treinando com objetivos de erro quadrático médio ou difusão. Apresentamos o SONAR-LLM, um transformador apenas decodificador que "pensa" no mesmo espaço contínuo de embeddings SONAR, mas é supervisionado por entropia cruzada em nível de token propagada via o decodificador SONAR congelado. Este objetivo híbrido mantém a abstração semântica do LCM enquanto elimina seu amostrador de difusão e restaura um sinal de treinamento baseado em verossimilhança. Em tamanhos de modelo variando de 39M a 1,3B de parâmetros, o SONAR-LLM atinge qualidade de geração competitiva. Relatamos tendências de escalonamento, ablações, resultados de benchmarks e disponibilizamos o código completo de treinamento e todos os checkpoints pré-treinados para promover reprodutibilidade e pesquisas futuras.
English
The recently proposed Large Concept Model (LCM) generates text by predicting
a sequence of sentence-level embeddings and training with either mean-squared
error or diffusion objectives. We present SONAR-LLM, a decoder-only transformer
that "thinks" in the same continuous SONAR embedding space, yet is supervised
through token-level cross-entropy propagated via the frozen SONAR decoder. This
hybrid objective retains the semantic abstraction of LCM while eliminating its
diffusion sampler and restoring a likelihood-based training signal. Across
model sizes from 39M to 1.3B parameters, SONAR-LLM attains competitive
generation quality. We report scaling trends, ablations, benchmark results, and
release the complete training code and all pretrained checkpoints to foster
reproducibility and future research.