LongCat-Next: Het lexicaliseren van modaliteiten als discrete tokens

Samenvatting

Het heersende Next-Token Prediction (NTP)-paradigma heeft het succes van grote taalmodellen aangedreven door middel van discrete autoregressieve modellering. Hedendaagse multimodale systemen blijven echter taalkundig centraal, waarbij niet-linguïstische modaliteiten vaak als externe aanhangsels worden behandeld, wat leidt tot gefragmenteerde architecturen en suboptimale integratie. Om deze beperking te overstijgen, introduceren wij Discrete Native Autoregressive (DiNA), een uniform raamwerk dat multimodale informatie vertegenwoordigt binnen een gedeelde discrete ruimte, waardoor een consistente en principiële autoregressieve modellering over modaliteiten heen mogelijk wordt. Een belangrijke innovatie is de Discrete Native Any-resolution Visual Transformer (dNaViT), die tokenisatie en detokenisatie op willekeurige resoluties uitvoert en continue visuele signalen omzet in hiërarchische discrete tokens. Op basis van deze fundering ontwikkelen wij LongCat-Next, een native multimodaal model dat tekst, beeld en audio verwerkt onder een enkele autoregressieve doelstelling met minimale modaliteit-specifieke ontwerpelementen. Als een industriesterkte foundationmodel blinkt het uit in zien, schilderen en praten binnen één enkel raamwerk, waarbij het sterke prestaties behaalt op een breed scala aan multimodale benchmarks. In het bijzonder doorbreekt LongCat-Next het lang bestaande prestatieplafond van discrete visuele modellering bij begripstaken en biedt het een uniforme aanpak om het conflict tussen begrip en generatie effectief te verzoenen. Als een poging richting native multimodaliteit maken wij LongCat-Next en zijn tokenizers open source, in de hoop verder onderzoek en ontwikkeling in de gemeenschap te bevorderen. GitHub: https://github.com/meituan-longcat/LongCat-Next

English

The prevailing Next-Token Prediction (NTP) paradigm has driven the success of large language models through discrete autoregressive modeling. However, contemporary multimodal systems remain language-centric, often treating non-linguistic modalities as external attachments, leading to fragmented architectures and suboptimal integration. To transcend this limitation, we introduce Discrete Native Autoregressive (DiNA), a unified framework that represents multimodal information within a shared discrete space, enabling a consistent and principled autoregressive modeling across modalities. A key innovation is the Discrete Native Any-resolution Visual Transformer (dNaViT), which performs tokenization and de-tokenization at arbitrary resolutions, transforming continuous visual signals into hierarchical discrete tokens. Building on this foundation, we develop LongCat-Next, a native multimodal model that processes text, vision, and audio under a single autoregressive objective with minimal modality-specific design. As an industrial-strength foundation model, it excels at seeing, painting, and talking within a single framework, achieving strong performance across a wide range of multimodal benchmarks. In particular, LongCat-Next addresses the long-standing performance ceiling of discrete vision modeling on understanding tasks and provides a unified approach to effectively reconcile the conflict between understanding and generation. As an attempt toward native multimodality, we open-source the LongCat-Next and its tokenizers, hoping to foster further research and development in the community. GitHub: https://github.com/meituan-longcat/LongCat-Next

LongCat-Next: Het lexicaliseren van modaliteiten als discrete tokens

LongCat-Next: Lexicalizing Modalities as Discrete Tokens

Samenvatting

Support