ILLUME+: 이중 시각적 토큰화와 디퓨전 정제를 통한 통합 멀티모달 대형 언어 모델의 조명
ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement
April 2, 2025
저자: Runhui Huang, Chunwei Wang, Junwei Yang, Guansong Lu, Yunlong Yuan, Jianhua Han, Lu Hou, Wei Zhang, Lanqing Hong, Hengshuang Zhao, Hang Xu
cs.AI
초록
우리는 깊은 의미 이해와 고품질 이미지 생성을 모두 개선하기 위해 이중 시각 토큰화와 디퓨전 디코더를 활용한 ILLUME+를 제안합니다. 기존의 통합 모델들은 이해, 생성, 편집이라는 세 가지 기본 능력을 동시에 처리하는 데 어려움을 겪어 왔습니다. Chameleon과 EMU3와 같은 모델들은 이미지 이산화를 위해 VQGAN을 사용하지만, 깊은 의미 상호작용의 부족으로 인해 LLaVA와 같은 전문 모델에 비해 시각 이해 작업에서 뒤처집니다. 이를 완화하기 위해 LaViT와 ILLUME는 의미 인코더를 사용하여 토큰화를 수행하지만, 텍스처 보존이 미흡하여 이미지 편집에 어려움을 겪습니다. 한편, Janus 시리즈는 입력과 출력 이미지 표현을 분리하여 인터리브된 이미지-텍스트 이해와 생성을 원활하게 처리하는 능력이 제한됩니다. 이와 대조적으로, ILLUME+는 미세한 텍스처와 텍스트 정렬 의미를 모두 보존하면서 다중모드 이해와 생성을 위한 거친-세밀 전략을 가능하게 하는 통합 이중 시각 토큰화기, DualViTok를 도입합니다. 또한, 향상된 생성 품질과 효율적인 초고해상도를 위해 디퓨전 모델을 이미지 디토큰화기로 사용합니다. ILLUME+는 통합 MLLM 내에서 연속 입력, 이산 출력 방식을 따르며, 시각 토큰화기, MLLM, 디퓨전 디코더에 걸쳐 동적 해상도를 지원하는 점진적 학습 절차를 채택합니다. 이 설계는 다양한 작업에 걸쳐 유연하고 효율적인 컨텍스트 인식 이미지 편집과 생성을 가능하게 합니다. ILLUME+ (3B)는 다중모드 이해, 생성, 편집 벤치마크에서 기존 통합 MLLM 및 전문 모델들과 경쟁력 있는 성능을 보여줍니다. 강력한 성능을 바탕으로, ILLUME+는 향후 다중모드 애플리케이션을 위한 확장 가능하고 다용도의 기반을 제공합니다. 프로젝트 페이지: https://illume-unified-mllm.github.io/.
English
We present ILLUME+ that leverages dual visual tokenization and a diffusion
decoder to improve both deep semantic understanding and high-fidelity image
generation. Existing unified models have struggled to simultaneously handle the
three fundamental capabilities in a unified model: understanding, generation,
and editing. Models like Chameleon and EMU3 utilize VQGAN for image
discretization, due to the lack of deep semantic interaction, they lag behind
specialist models like LLaVA in visual understanding tasks. To mitigate this,
LaViT and ILLUME employ semantic encoders for tokenization, but they struggle
with image editing due to poor texture preservation. Meanwhile, Janus series
decouples the input and output image representation, limiting their abilities
to seamlessly handle interleaved image-text understanding and generation. In
contrast, ILLUME+ introduces a unified dual visual tokenizer, DualViTok, which
preserves both fine-grained textures and text-aligned semantics while enabling
a coarse-to-fine image representation strategy for multimodal understanding and
generation. Additionally, we employ a diffusion model as the image detokenizer
for enhanced generation quality and efficient super-resolution. ILLUME+ follows
a continuous-input, discrete-output scheme within the unified MLLM and adopts a
progressive training procedure that supports dynamic resolution across the
vision tokenizer, MLLM, and diffusion decoder. This design allows for flexible
and efficient context-aware image editing and generation across diverse tasks.
ILLUME+ (3B) exhibits competitive performance against existing unified MLLMs
and specialized models across multimodal understanding, generation, and editing
benchmarks. With its strong performance, ILLUME+ provides a scalable and
versatile foundation for future multimodal applications. Project Page:
https://illume-unified-mllm.github.io/.Summary
AI-Generated Summary