문장 속 이미지: 통합 시각 생성을 위한 인터리브 명령 확장
Images in Sentences: Scaling Interleaved Instructions for Unified Visual Generation
May 12, 2026
저자: Yabo Zhang, Kunchang Li, Dewei Zhou, Xinyu Huang, Xun Wang
cs.AI
초록
최근 다중 모달 언어 모델의 발전으로 표현적인 다중 이미지 명령어로부터 이미지를 생성할 수 있게 되었으나, 기존 방법들은 복잡한 혼합 명령어에서 성능을 유지하는 데 어려움을 겪고 있다. 이러한 한계는 현재 패러다임에서 이미지와 텍스트가 구조적으로 분리되어 있어, 모델이 설명과 시각적 대상을 일치시키기 위해 긴 장거리 의존성을 연결해야 하기 때문에 발생한다. 이 문제를 해결하기 위해, 우리는 텍스트 명령어 내에서 이미지를 고유 어휘로 원활하게 삽입하는 통합 생성 모델인 INSET(Images iN SEnTences, 일명 INSET)을 제안한다. 시각적 특징을 해당 의미적 위치에 직접 배치함으로써, INSET은 트랜스포머의 문맥적 지역성을 활용하여 정밀한 객체 결합을 가능하게 하며, 이미지를 밀집된 표현적 언어 토큰으로 효과적으로 처리한다. 또한, 표준 이미지 및 비디오 데이터셋에서 1,500만 개의 고품질 혼합 샘플을 합성하는 확장 가능한 데이터 엔진을 도입하며, VLM과 LLM을 활용하여 풍부하고 긴 시퀀스를 구축한다. InterleaveBench에 대한 평가 결과, INSET은 다중 이미지 일관성 및 텍스트 정렬에서 최신 방법들을 크게 능가하며, 입력 복잡성이 증가할수록 성능 격차는 더욱 벌어짐을 보여준다. 표준 생성 외에도, 우리의 접근 방식은 본질적으로 다중 모달 이미지 편집으로 확장되어, 시각적 콘텐츠를 명령어의 일부로 통합함으로써 매우 표현적이고 창의적인 시각적 조작을 가능하게 한다.
English
While recent advancements in multimodal language models have enabled image generation from expressive multi-image instructions, existing methods struggle to maintain performance under complex interleaved instructions. This limitation stems from the structural separation of images and text in current paradigms, which forces models to bridge difficult long-range dependencies to match descriptions with visual targets. To address these challenges, we propose Images iN SEnTences (a.k.a, INSET), a unified generation model that seamlessly embeds images as native vocabulary within textual instructions. By positioning visual features directly at their corresponding semantic slots, INSET leverages the contextual locality of transformers for precise object binding, effectively treating images as dense, expressive language tokens. Furthermore, we introduce a scalable data engine that synthesizes 15M high-quality interleaved samples from standard image and video datasets, utilizing VLMs and LLMs to construct rich, long-horizon sequences. Evaluation results on InterleaveBench demonstrate that INSET significantly outperforms state-of-the-art methods in multi-image consistency and text alignment, with performance gaps widening as input complexity increases. Beyond standard generation, our approach inherently extends to multimodal image editing, integrating visual content as part of the instruction to facilitate highly expressive and creative visual manipulations.