NextFlow: La Modellazione Sequenziale Unificata Attiva la Comprensione e la Generazione Multimodale

Abstract

Presentiamo NextFlow, un trasformatore autoregressivo decoder-only unificato addestrato su 6 trilioni di token discreti testo-immagine interallacciati. Sfruttando una rappresentazione visiva unificata all'interno di un'architettura autoregressiva unificata, NextFlow attiva nativamente capacità di comprensione e generazione multimodale, sbloccando abilità di editing di immagini, generazione di contenuti interallacciati e video. Motivati dalla natura distinta delle modalità - dove il testo è strettamente sequenziale e le immagini sono intrinsecamente gerarchiche - manteniamo la predizione del token successivo per il testo ma adottiamo la predizione a scala successiva per la generazione visiva. Questo si discosta dai metodi tradizionali a scansione raster, consentendo la generazione di immagini 1024x1024 in soli 5 secondi - ordini di grandezza più veloce rispetto a modelli AR comparabili. Affrontiamo le instabilità della generazione multi-scala attraverso una ricetta di addestramento robusta. Inoltre, introduciamo una strategia di prefix-tuning per l'apprendimento per rinforzo. Gli esperimenti dimostrano che NextFlow raggiunge prestazioni all'avanguardia tra i modelli unificati e rivaleggia con baseline di diffusione specializzate nella qualità visiva.

English

We present NextFlow, a unified decoder-only autoregressive transformer trained on 6 trillion interleaved text-image discrete tokens. By leveraging a unified vision representation within a unified autoregressive architecture, NextFlow natively activates multimodal understanding and generation capabilities, unlocking abilities of image editing, interleaved content and video generation. Motivated by the distinct nature of modalities - where text is strictly sequential and images are inherently hierarchical - we retain next-token prediction for text but adopt next-scale prediction for visual generation. This departs from traditional raster-scan methods, enabling the generation of 1024x1024 images in just 5 seconds - orders of magnitude faster than comparable AR models. We address the instabilities of multi-scale generation through a robust training recipe. Furthermore, we introduce a prefix-tuning strategy for reinforcement learning. Experiments demonstrate that NextFlow achieves state-of-the-art performance among unified models and rivals specialized diffusion baselines in visual quality.

NextFlow: La Modellazione Sequenziale Unificata Attiva la Comprensione e la Generazione Multimodale

NextFlow: Unified Sequential Modeling Activates Multimodal Understanding and Generation

Abstract

Support