ChatPaper.aiChatPaper

SONAR-LLM: Авторегрессивный трансформер, который мыслит в эмбеддингах предложений и генерирует токены

SONAR-LLM: Autoregressive Transformer that Thinks in Sentence Embeddings and Speaks in Tokens

August 7, 2025
Авторы: Nikita Dragunov, Temurbek Rahmatullaev, Elizaveta Goncharova, Andrey Kuznetsov, Anton Razzhigaev
cs.AI

Аннотация

Недавно предложенная модель Large Concept Model (LCM) генерирует текст, предсказывая последовательность вложений на уровне предложений и обучаясь с использованием либо среднеквадратичной ошибки, либо диффузионных целевых функций. Мы представляем SONAR-LLM, трансформер, работающий только в режиме декодера, который "мыслит" в том же непрерывном пространстве вложений SONAR, но обучается с использованием кросс-энтропии на уровне токенов, распространяемой через замороженный декодер SONAR. Этот гибридный подход сохраняет семантическую абстракцию LCM, устраняя при этом диффузионный сэмплер и восстанавливая обучающий сигнал, основанный на правдоподобии. Для моделей размером от 39 миллионов до 1,3 миллиарда параметров SONAR-LLM демонстрирует конкурентоспособное качество генерации. Мы представляем тенденции масштабирования, результаты абляционных исследований и тестов, а также публикуем полный код обучения и все предобученные контрольные точки для обеспечения воспроизводимости и поддержки будущих исследований.
English
The recently proposed Large Concept Model (LCM) generates text by predicting a sequence of sentence-level embeddings and training with either mean-squared error or diffusion objectives. We present SONAR-LLM, a decoder-only transformer that "thinks" in the same continuous SONAR embedding space, yet is supervised through token-level cross-entropy propagated via the frozen SONAR decoder. This hybrid objective retains the semantic abstraction of LCM while eliminating its diffusion sampler and restoring a likelihood-based training signal. Across model sizes from 39M to 1.3B parameters, SONAR-LLM attains competitive generation quality. We report scaling trends, ablations, benchmark results, and release the complete training code and all pretrained checkpoints to foster reproducibility and future research.