ChatPaper.aiChatPaper

SONAR-LLM: Transformador Autoregressivo que Pensa em Embeddings de Frases e Fala em Tokens

SONAR-LLM: Autoregressive Transformer that Thinks in Sentence Embeddings and Speaks in Tokens

August 7, 2025
Autores: Nikita Dragunov, Temurbek Rahmatullaev, Elizaveta Goncharova, Andrey Kuznetsov, Anton Razzhigaev
cs.AI

Resumo

O recentemente proposto Large Concept Model (LCM) gera texto prevendo uma sequência de embeddings em nível de frase e treinando com objetivos de erro quadrático médio ou difusão. Apresentamos o SONAR-LLM, um transformador apenas decodificador que "pensa" no mesmo espaço contínuo de embeddings SONAR, mas é supervisionado por entropia cruzada em nível de token propagada via o decodificador SONAR congelado. Este objetivo híbrido mantém a abstração semântica do LCM enquanto elimina seu amostrador de difusão e restaura um sinal de treinamento baseado em verossimilhança. Em tamanhos de modelo variando de 39M a 1,3B de parâmetros, o SONAR-LLM atinge qualidade de geração competitiva. Relatamos tendências de escalonamento, ablações, resultados de benchmarks e disponibilizamos o código completo de treinamento e todos os checkpoints pré-treinados para promover reprodutibilidade e pesquisas futuras.
English
The recently proposed Large Concept Model (LCM) generates text by predicting a sequence of sentence-level embeddings and training with either mean-squared error or diffusion objectives. We present SONAR-LLM, a decoder-only transformer that "thinks" in the same continuous SONAR embedding space, yet is supervised through token-level cross-entropy propagated via the frozen SONAR decoder. This hybrid objective retains the semantic abstraction of LCM while eliminating its diffusion sampler and restoring a likelihood-based training signal. Across model sizes from 39M to 1.3B parameters, SONAR-LLM attains competitive generation quality. We report scaling trends, ablations, benchmark results, and release the complete training code and all pretrained checkpoints to foster reproducibility and future research.
PDF463August 12, 2025