ChatPaper.aiChatPaper

SONAR-LLM: Transformador Autoregresivo que Piensa en Incrustaciones de Oraciones y Habla en Tokens

SONAR-LLM: Autoregressive Transformer that Thinks in Sentence Embeddings and Speaks in Tokens

August 7, 2025
Autores: Nikita Dragunov, Temurbek Rahmatullaev, Elizaveta Goncharova, Andrey Kuznetsov, Anton Razzhigaev
cs.AI

Resumen

El recientemente propuesto Modelo de Conceptos Grandes (LCM, por sus siglas en inglés) genera texto prediciendo una secuencia de incrustaciones a nivel de oración y entrenando con objetivos de error cuadrático medio o difusión. Presentamos SONAR-LLM, un transformador de solo decodificación que "piensa" en el mismo espacio continuo de incrustaciones SONAR, pero que es supervisado mediante entropía cruzada a nivel de tokens propagada a través del decodificador SONAR congelado. Este objetivo híbrido conserva la abstracción semántica del LCM mientras elimina su muestreador de difusión y restaura una señal de entrenamiento basada en verosimilitud. En tamaños de modelo que van desde 39M hasta 1.3B de parámetros, SONAR-LLM alcanza una calidad de generación competitiva. Reportamos tendencias de escalamiento, ablaciones, resultados de benchmarks y liberamos el código completo de entrenamiento y todos los puntos de control preentrenados para fomentar la reproducibilidad y futuras investigaciones.
English
The recently proposed Large Concept Model (LCM) generates text by predicting a sequence of sentence-level embeddings and training with either mean-squared error or diffusion objectives. We present SONAR-LLM, a decoder-only transformer that "thinks" in the same continuous SONAR embedding space, yet is supervised through token-level cross-entropy propagated via the frozen SONAR decoder. This hybrid objective retains the semantic abstraction of LCM while eliminating its diffusion sampler and restoring a likelihood-based training signal. Across model sizes from 39M to 1.3B parameters, SONAR-LLM attains competitive generation quality. We report scaling trends, ablations, benchmark results, and release the complete training code and all pretrained checkpoints to foster reproducibility and future research.
PDF332August 12, 2025