PUMA: Potenciando MLLM Unificado con Generación Visual Multi-granular
PUMA: Empowering Unified MLLM with Multi-granular Visual Generation
October 17, 2024
Autores: Rongyao Fang, Chengqi Duan, Kun Wang, Hao Li, Hao Tian, Xingyu Zeng, Rui Zhao, Jifeng Dai, Hongsheng Li, Xihui Liu
cs.AI
Resumen
Los recientes avances en modelos de base multimodal han generado un progreso significativo en la comprensión visión-lenguaje. Los intentos iniciales también han explorado el potencial de los grandes modelos de lenguaje multimodales (MLLMs) para la generación de contenido visual. Sin embargo, los trabajos existentes no han abordado adecuadamente las demandas de granularidad variables de diferentes tareas de generación de imágenes dentro de un paradigma unificado MLLM, desde la diversidad requerida en la generación de texto a imagen hasta la precisión necesaria en la manipulación de imágenes. En este trabajo, proponemos PUMA, Potenciando MLLM Unificado con generación visual Multi-granular. PUMA unifica características visuales multi-granulares como entradas y salidas de MLLMs, abordando de manera elegante los diferentes requisitos de granularidad de diversas tareas de generación de imágenes dentro de un marco MLLM unificado. Tras el preentrenamiento multimodal y la sintonización de instrucciones específicas de la tarea, PUMA demuestra competencia en una amplia gama de tareas multimodales. Este trabajo representa un paso significativo hacia un MLLM verdaderamente unificado capaz de adaptarse a las demandas de granularidad de diversas tareas visuales. El código y el modelo se publicarán en https://github.com/rongyaofang/PUMA.
English
Recent advancements in multimodal foundation models have yielded significant
progress in vision-language understanding. Initial attempts have also explored
the potential of multimodal large language models (MLLMs) for visual content
generation. However, existing works have insufficiently addressed the varying
granularity demands of different image generation tasks within a unified MLLM
paradigm - from the diversity required in text-to-image generation to the
precise controllability needed in image manipulation. In this work, we propose
PUMA, emPowering Unified MLLM with Multi-grAnular visual generation. PUMA
unifies multi-granular visual features as both inputs and outputs of MLLMs,
elegantly addressing the different granularity requirements of various image
generation tasks within a unified MLLM framework. Following multimodal
pretraining and task-specific instruction tuning, PUMA demonstrates proficiency
in a wide range of multimodal tasks. This work represents a significant step
towards a truly unified MLLM capable of adapting to the granularity demands of
various visual tasks. The code and model will be released in
https://github.com/rongyaofang/PUMA.Summary
AI-Generated Summary