ChatPaper.aiChatPaper

ILLUME+: Iluminando MLLM Unificado con Tokenización Visual Dual y Refinamiento por Difusión

ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement

April 2, 2025
Autores: Runhui Huang, Chunwei Wang, Junwei Yang, Guansong Lu, Yunlong Yuan, Jianhua Han, Lu Hou, Wei Zhang, Lanqing Hong, Hengshuang Zhao, Hang Xu
cs.AI

Resumen

Presentamos ILLUME+, que aprovecha la tokenización visual dual y un decodificador de difusión para mejorar tanto la comprensión semántica profunda como la generación de imágenes de alta fidelidad. Los modelos unificados existentes han tenido dificultades para manejar simultáneamente las tres capacidades fundamentales en un modelo unificado: comprensión, generación y edición. Modelos como Chameleon y EMU3 utilizan VQGAN para la discretización de imágenes, pero debido a la falta de interacción semántica profunda, se quedan atrás en tareas de comprensión visual en comparación con modelos especializados como LLaVA. Para mitigar esto, LaViT e ILLUME emplean codificadores semánticos para la tokenización, pero tienen dificultades con la edición de imágenes debido a la mala preservación de texturas. Mientras tanto, la serie Janus desacopla la representación de la imagen de entrada y salida, limitando su capacidad para manejar de manera fluida la comprensión y generación intercalada de imágenes y texto. En contraste, ILLUME+ introduce un tokenizador visual dual unificado, DualViTok, que preserva tanto las texturas detalladas como la semántica alineada con el texto, permitiendo una estrategia de representación de imágenes de gruesa a fina para la comprensión y generación multimodal. Además, empleamos un modelo de difusión como detokenizador de imágenes para mejorar la calidad de generación y la super-resolución eficiente. ILLUME+ sigue un esquema de entrada continua y salida discreta dentro del MLLM unificado y adopta un procedimiento de entrenamiento progresivo que soporta resolución dinámica en el tokenizador visual, el MLLM y el decodificador de difusión. Este diseño permite una edición y generación de imágenes eficiente y flexible, consciente del contexto, en diversas tareas. ILLUME+ (3B) muestra un rendimiento competitivo frente a los MLLMs unificados existentes y a modelos especializados en benchmarks de comprensión, generación y edición multimodal. Con su sólido rendimiento, ILLUME+ proporciona una base escalable y versátil para futuras aplicaciones multimodales. Página del proyecto: https://illume-unified-mllm.github.io/.
English
We present ILLUME+ that leverages dual visual tokenization and a diffusion decoder to improve both deep semantic understanding and high-fidelity image generation. Existing unified models have struggled to simultaneously handle the three fundamental capabilities in a unified model: understanding, generation, and editing. Models like Chameleon and EMU3 utilize VQGAN for image discretization, due to the lack of deep semantic interaction, they lag behind specialist models like LLaVA in visual understanding tasks. To mitigate this, LaViT and ILLUME employ semantic encoders for tokenization, but they struggle with image editing due to poor texture preservation. Meanwhile, Janus series decouples the input and output image representation, limiting their abilities to seamlessly handle interleaved image-text understanding and generation. In contrast, ILLUME+ introduces a unified dual visual tokenizer, DualViTok, which preserves both fine-grained textures and text-aligned semantics while enabling a coarse-to-fine image representation strategy for multimodal understanding and generation. Additionally, we employ a diffusion model as the image detokenizer for enhanced generation quality and efficient super-resolution. ILLUME+ follows a continuous-input, discrete-output scheme within the unified MLLM and adopts a progressive training procedure that supports dynamic resolution across the vision tokenizer, MLLM, and diffusion decoder. This design allows for flexible and efficient context-aware image editing and generation across diverse tasks. ILLUME+ (3B) exhibits competitive performance against existing unified MLLMs and specialized models across multimodal understanding, generation, and editing benchmarks. With its strong performance, ILLUME+ provides a scalable and versatile foundation for future multimodal applications. Project Page: https://illume-unified-mllm.github.io/.

Summary

AI-Generated Summary

PDF234April 3, 2025