文中の画像:統合視覚生成のためのインターリーブされた指示のスケーリング
Images in Sentences: Scaling Interleaved Instructions for Unified Visual Generation
May 12, 2026
著者: Yabo Zhang, Kunchang Li, Dewei Zhou, Xinyu Huang, Xun Wang
cs.AI
要旨
近年のマルチモーダル言語モデルの進歩により、表現豊かな複数画像指示からの画像生成が可能となったものの、既存手法では複雑なインターリーブ指示下で性能を維持することが困難である。この限界は、現在のパラダイムにおける画像とテキストの構造的分離に起因しており、モデルは記述と視覚対象を一致させるために困難な長距離依存関係を橋渡しせざるを得ない。これらの課題に対処するため、我々はINSET(Images iN SEnTences)を提案する。これは、画像をテキスト指示内のネイティブ語彙としてシームレスに埋め込む統合生成モデルである。視覚特徴を対応する意味スロットに直接配置することで、INSETはトランスフォーマーの文脈的局所性を活用して精密なオブジェクト結合を実現し、画像を密で表現力豊かな言語トークンとして効果的に扱う。さらに、標準的な画像・ビデオデータセットから1500万の高品質インターリーブサンプルを合成するスケーラブルなデータエンジンを導入し、VLMとLLMを利用して豊かで長期的なシーケンスを構築する。InterleaveBenchでの評価結果は、INSETがマルチイメージ一貫性とテキストアライメントにおいて最先端手法を大幅に上回り、入力の複雑さが増すにつれて性能差が拡大することを示している。標準的な生成に加え、我々のアプローチは本質的にマルチモーダル画像編集へも拡張され、視覚コンテンツを指示の一部として統合することで、高度に表現力豊かで創造的な視覚的操作を容易にする。
English
While recent advancements in multimodal language models have enabled image generation from expressive multi-image instructions, existing methods struggle to maintain performance under complex interleaved instructions. This limitation stems from the structural separation of images and text in current paradigms, which forces models to bridge difficult long-range dependencies to match descriptions with visual targets. To address these challenges, we propose Images iN SEnTences (a.k.a, INSET), a unified generation model that seamlessly embeds images as native vocabulary within textual instructions. By positioning visual features directly at their corresponding semantic slots, INSET leverages the contextual locality of transformers for precise object binding, effectively treating images as dense, expressive language tokens. Furthermore, we introduce a scalable data engine that synthesizes 15M high-quality interleaved samples from standard image and video datasets, utilizing VLMs and LLMs to construct rich, long-horizon sequences. Evaluation results on InterleaveBench demonstrate that INSET significantly outperforms state-of-the-art methods in multi-image consistency and text alignment, with performance gaps widening as input complexity increases. Beyond standard generation, our approach inherently extends to multimodal image editing, integrating visual content as part of the instruction to facilitate highly expressive and creative visual manipulations.