Images dans les phrases : passage à l'échelle des instructions entrelacées pour une génération visuelle unifiée
Images in Sentences: Scaling Interleaved Instructions for Unified Visual Generation
May 12, 2026
Auteurs: Yabo Zhang, Kunchang Li, Dewei Zhou, Xinyu Huang, Xun Wang
cs.AI
Résumé
Alors que les avancées récentes dans les modèles de langage multimodaux ont permis la génération d'images à partir d'instructions multi-images expressives, les méthodes existantes peinent à maintenir leurs performances face à des instructions entrelacées complexes. Cette limitation provient de la séparation structurelle entre images et texte dans les paradigmes actuels, ce qui oblige les modèles à combler des dépendances à longue portée difficiles pour associer les descriptions aux cibles visuelles. Pour relever ces défis, nous proposons Images iN SEnTences (alias INSET), un modèle de génération unifié qui intègre de manière transparente les images comme vocabulaire natif au sein des instructions textuelles. En positionnant les caractéristiques visuelles directement dans leurs emplacements sémantiques correspondants, INSET exploite la localité contextuelle des transformeurs pour un liage précis des objets, traitant ainsi les images comme des jetons linguistiques denses et expressifs. De plus, nous introduisons un moteur de données scalable qui synthétise 15 millions d'échantillons entrelacés de haute qualité à partir d'ensembles de données images et vidéos standards, en utilisant des VLM et des LLM pour construire des séquences riches et à long horizon. Les résultats d'évaluation sur InterleaveBench démontrent qu'INSET surpasse significativement les méthodes de pointe en matière de cohérence multi-image et d'alignement textuel, les écarts de performance se creusant à mesure que la complexité des entrées augmente. Au-delà de la génération standard, notre approche s'étend intrinsèquement à l'édition d'images multimodale, intégrant le contenu visuel comme partie intégrante de l'instruction pour faciliter des manipulations visuelles hautement expressives et créatives.
English
While recent advancements in multimodal language models have enabled image generation from expressive multi-image instructions, existing methods struggle to maintain performance under complex interleaved instructions. This limitation stems from the structural separation of images and text in current paradigms, which forces models to bridge difficult long-range dependencies to match descriptions with visual targets. To address these challenges, we propose Images iN SEnTences (a.k.a, INSET), a unified generation model that seamlessly embeds images as native vocabulary within textual instructions. By positioning visual features directly at their corresponding semantic slots, INSET leverages the contextual locality of transformers for precise object binding, effectively treating images as dense, expressive language tokens. Furthermore, we introduce a scalable data engine that synthesizes 15M high-quality interleaved samples from standard image and video datasets, utilizing VLMs and LLMs to construct rich, long-horizon sequences. Evaluation results on InterleaveBench demonstrate that INSET significantly outperforms state-of-the-art methods in multi-image consistency and text alignment, with performance gaps widening as input complexity increases. Beyond standard generation, our approach inherently extends to multimodal image editing, integrating visual content as part of the instruction to facilitate highly expressive and creative visual manipulations.