OneFlow : Génération concurrente multimodale et entrelacée avec flux d'édition
OneFlow: Concurrent Mixed-Modal and Interleaved Generation with Edit Flows
October 3, 2025
papers.authors: John Nguyen, Marton Havasi, Tariq Berrada, Luke Zettlemoyer, Ricky T. Q. Chen
cs.AI
papers.abstract
Nous présentons OneFlow, le premier modèle multimodal non-autorégressif permettant une génération concurrente et de longueur variable de contenus mixtes. Contrairement aux modèles autorégressifs qui imposent un ordre causal rigide entre la génération de texte et d'images, OneFlow combine un flux d'insertion (Edit Flow) pour les tokens textuels discrets avec un appariement de flux (Flow Matching) pour les latents d'images. OneFlow permet une synthèse concurrente texte-image grâce à un échantillonnage hiérarchique qui privilégie le contenu plutôt que la grammaire. À travers des expériences contrôlées sur des tailles de modèle allant de 1B à 8B, nous démontrons que OneFlow surpasse les modèles de référence autorégressifs à la fois en génération et en compréhension, tout en utilisant jusqu'à 50 % moins de FLOPs d'entraînement. OneFlow dépasse à la fois les approches autorégressives et basées sur la diffusion, tout en débloquant de nouvelles capacités pour la génération concurrente, le raffinement itératif et la génération naturelle de type raisonnement.
English
We present OneFlow, the first non-autoregressive multimodal model that
enables variable-length and concurrent mixed-modal generation. Unlike
autoregressive models that enforce rigid causal ordering between text and image
generation, OneFlow combines an insertion-based Edit Flow for discrete text
tokens with Flow Matching for image latents. OneFlow enables concurrent
text-image synthesis with hierarchical sampling that prioritizes content over
grammar. Through controlled experiments across model sizes from 1B to 8B, we
demonstrate that OneFlow outperforms autoregressive baselines on both
generation and understanding tasks while using up to 50% fewer training FLOPs.
OneFlow surpasses both autoregressive and diffusion-based approaches while
unlocking new capabilities for concurrent generation, iterative refinement, and
natural reasoning-like generation.