SONAR-LLM: Авторегрессивный трансформер, который мыслит в эмбеддингах предложений и генерирует токены
SONAR-LLM: Autoregressive Transformer that Thinks in Sentence Embeddings and Speaks in Tokens
August 7, 2025
Авторы: Nikita Dragunov, Temurbek Rahmatullaev, Elizaveta Goncharova, Andrey Kuznetsov, Anton Razzhigaev
cs.AI
Аннотация
Недавно предложенная модель Large Concept Model (LCM) генерирует текст, предсказывая последовательность вложений на уровне предложений и обучаясь с использованием либо среднеквадратичной ошибки, либо диффузионных целевых функций. Мы представляем SONAR-LLM, трансформер, работающий только в режиме декодера, который "мыслит" в том же непрерывном пространстве вложений SONAR, но обучается с использованием кросс-энтропии на уровне токенов, распространяемой через замороженный декодер SONAR. Этот гибридный подход сохраняет семантическую абстракцию LCM, устраняя при этом диффузионный сэмплер и восстанавливая обучающий сигнал, основанный на правдоподобии. Для моделей размером от 39 миллионов до 1,3 миллиарда параметров SONAR-LLM демонстрирует конкурентоспособное качество генерации. Мы представляем тенденции масштабирования, результаты абляционных исследований и тестов, а также публикуем полный код обучения и все предобученные контрольные точки для обеспечения воспроизводимости и поддержки будущих исследований.
English
The recently proposed Large Concept Model (LCM) generates text by predicting
a sequence of sentence-level embeddings and training with either mean-squared
error or diffusion objectives. We present SONAR-LLM, a decoder-only transformer
that "thinks" in the same continuous SONAR embedding space, yet is supervised
through token-level cross-entropy propagated via the frozen SONAR decoder. This
hybrid objective retains the semantic abstraction of LCM while eliminating its
diffusion sampler and restoring a likelihood-based training signal. Across
model sizes from 39M to 1.3B parameters, SONAR-LLM attains competitive
generation quality. We report scaling trends, ablations, benchmark results, and
release the complete training code and all pretrained checkpoints to foster
reproducibility and future research.