ChatPaper.aiChatPaper

SONAR-LLM: Авторегрессивный трансформер, который мыслит в эмбеддингах предложений и генерирует токены

SONAR-LLM: Autoregressive Transformer that Thinks in Sentence Embeddings and Speaks in Tokens

August 7, 2025
Авторы: Nikita Dragunov, Temurbek Rahmatullaev, Elizaveta Goncharova, Andrey Kuznetsov, Anton Razzhigaev
cs.AI

Аннотация

Недавно предложенная модель Large Concept Model (LCM) генерирует текст, предсказывая последовательность вложений на уровне предложений и обучаясь с использованием либо среднеквадратичной ошибки, либо диффузионных целевых функций. Мы представляем SONAR-LLM, трансформер, работающий только в режиме декодера, который "мыслит" в том же непрерывном пространстве вложений SONAR, но обучается с использованием кросс-энтропии на уровне токенов, распространяемой через замороженный декодер SONAR. Этот гибридный подход сохраняет семантическую абстракцию LCM, устраняя при этом диффузионный сэмплер и восстанавливая обучающий сигнал, основанный на правдоподобии. Для моделей размером от 39 миллионов до 1,3 миллиарда параметров SONAR-LLM демонстрирует конкурентоспособное качество генерации. Мы представляем тенденции масштабирования, результаты абляционных исследований и тестов, а также публикуем полный код обучения и все предобученные контрольные точки для обеспечения воспроизводимости и поддержки будущих исследований.
English
The recently proposed Large Concept Model (LCM) generates text by predicting a sequence of sentence-level embeddings and training with either mean-squared error or diffusion objectives. We present SONAR-LLM, a decoder-only transformer that "thinks" in the same continuous SONAR embedding space, yet is supervised through token-level cross-entropy propagated via the frozen SONAR decoder. This hybrid objective retains the semantic abstraction of LCM while eliminating its diffusion sampler and restoring a likelihood-based training signal. Across model sizes from 39M to 1.3B parameters, SONAR-LLM attains competitive generation quality. We report scaling trends, ablations, benchmark results, and release the complete training code and all pretrained checkpoints to foster reproducibility and future research.
PDF332August 12, 2025