ILLUME+: Verlichting van Unified MLLM met Duale Visuele Tokenisatie en Diffusieverfijning
ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement
April 2, 2025
Auteurs: Runhui Huang, Chunwei Wang, Junwei Yang, Guansong Lu, Yunlong Yuan, Jianhua Han, Lu Hou, Wei Zhang, Lanqing Hong, Hengshuang Zhao, Hang Xu
cs.AI
Samenvatting
We presenteren ILLUME+, dat gebruikmaakt van dubbele visuele tokenisatie en een diffusiedecoder om zowel diepgaand semantisch begrip als hoogwaardige beeldgeneratie te verbeteren. Bestaande geünificeerde modellen hebben moeite gehad om de drie fundamentele capaciteiten in één model tegelijkertijd te hanteren: begrip, generatie en bewerking. Modellen zoals Chameleon en EMU3 gebruiken VQGAN voor beelddiscretisatie, maar door het gebrek aan diepgaande semantische interactie blijven ze achter op gespecialiseerde modellen zoals LLaVA in visuele begriptaken. Om dit te verhelpen, gebruiken LaViT en ILLUME semantische encoders voor tokenisatie, maar ze worstelen met beeldbewerking vanwege slechte textuurbehoud. Ondertussen ontkoppelt de Janus-serie de invoer- en uitvoerbeeldrepresentatie, wat hun vermogen beperkt om naadloos interleaved beeld-tekstbegrip en -generatie te hanteren. In tegenstelling hiermee introduceert ILLUME+ een geünificeerde dubbele visuele tokenizer, DualViTok, die zowel fijnkorrelige texturen als tekstuitgelijnde semantiek behoudt, terwijl het een grof-naar-fijn beeldrepresentatiestrategie mogelijk maakt voor multimodaal begrip en generatie. Daarnaast gebruiken we een diffusiemodel als de beelddetokenizer voor verbeterde generatiekwaliteit en efficiënte superresolutie. ILLUME+ volgt een continu-invoer, discreet-uitvoer schema binnen het geünificeerde MLLM en neemt een progressief trainingsproces aan dat dynamische resolutie ondersteunt over de visie-tokenizer, MLLM en diffusiedecoder. Dit ontwerp maakt flexibele en efficiënte contextbewuste beeldbewerking en -generatie mogelijk over diverse taken. ILLUME+ (3B) vertoont competitieve prestaties ten opzichte van bestaande geünificeerde MLLM's en gespecialiseerde modellen over multimodale begrip-, generatie- en bewerkingsbenchmarks. Met zijn sterke prestaties biedt ILLUME+ een schaalbare en veelzijdige basis voor toekomstige multimodale toepassingen. Projectpagina: https://illume-unified-mllm.github.io/.
English
We present ILLUME+ that leverages dual visual tokenization and a diffusion
decoder to improve both deep semantic understanding and high-fidelity image
generation. Existing unified models have struggled to simultaneously handle the
three fundamental capabilities in a unified model: understanding, generation,
and editing. Models like Chameleon and EMU3 utilize VQGAN for image
discretization, due to the lack of deep semantic interaction, they lag behind
specialist models like LLaVA in visual understanding tasks. To mitigate this,
LaViT and ILLUME employ semantic encoders for tokenization, but they struggle
with image editing due to poor texture preservation. Meanwhile, Janus series
decouples the input and output image representation, limiting their abilities
to seamlessly handle interleaved image-text understanding and generation. In
contrast, ILLUME+ introduces a unified dual visual tokenizer, DualViTok, which
preserves both fine-grained textures and text-aligned semantics while enabling
a coarse-to-fine image representation strategy for multimodal understanding and
generation. Additionally, we employ a diffusion model as the image detokenizer
for enhanced generation quality and efficient super-resolution. ILLUME+ follows
a continuous-input, discrete-output scheme within the unified MLLM and adopts a
progressive training procedure that supports dynamic resolution across the
vision tokenizer, MLLM, and diffusion decoder. This design allows for flexible
and efficient context-aware image editing and generation across diverse tasks.
ILLUME+ (3B) exhibits competitive performance against existing unified MLLMs
and specialized models across multimodal understanding, generation, and editing
benchmarks. With its strong performance, ILLUME+ provides a scalable and
versatile foundation for future multimodal applications. Project Page:
https://illume-unified-mllm.github.io/.Summary
AI-Generated Summary