PUMA: Potenziare MLLM Unificato con Generazione Visiva Multigranulare
PUMA: Empowering Unified MLLM with Multi-granular Visual Generation
October 17, 2024
Autori: Rongyao Fang, Chengqi Duan, Kun Wang, Hao Li, Hao Tian, Xingyu Zeng, Rui Zhao, Jifeng Dai, Hongsheng Li, Xihui Liu
cs.AI
Abstract
I recenti progressi nei modelli di base multimodali hanno portato a significativi avanzamenti nella comprensione visione-linguaggio. I primi tentativi hanno esplorato il potenziale dei grandi modelli di linguaggio multimodali (MLLM) per la generazione di contenuti visivi. Tuttavia, i lavori esistenti non hanno affrontato in modo sufficiente le diverse esigenze di granularità dei diversi compiti di generazione di immagini all'interno di un paradigma MLLM unificato - dalla diversità richiesta nella generazione di testo-immagine al controllo preciso necessario nella manipolazione delle immagini. In questo lavoro, proponiamo PUMA, emPowering Unified MLLM with Multi-grAnular visual generation. PUMA unifica le caratteristiche visive multigranulari sia come input che come output dei MLLM, affrontando in modo elegante i diversi requisiti di granularità dei vari compiti di generazione di immagini all'interno di un framework MLLM unificato. Dopo il preaddestramento multimodale e il tuning delle istruzioni specifiche del compito, PUMA dimostra competenza in una vasta gamma di compiti multimodali. Questo lavoro rappresenta un passo significativo verso un vero MLLM unificato in grado di adattarsi alle esigenze di granularità dei vari compiti visivi. Il codice e il modello saranno rilasciati su https://github.com/rongyaofang/PUMA.
English
Recent advancements in multimodal foundation models have yielded significant
progress in vision-language understanding. Initial attempts have also explored
the potential of multimodal large language models (MLLMs) for visual content
generation. However, existing works have insufficiently addressed the varying
granularity demands of different image generation tasks within a unified MLLM
paradigm - from the diversity required in text-to-image generation to the
precise controllability needed in image manipulation. In this work, we propose
PUMA, emPowering Unified MLLM with Multi-grAnular visual generation. PUMA
unifies multi-granular visual features as both inputs and outputs of MLLMs,
elegantly addressing the different granularity requirements of various image
generation tasks within a unified MLLM framework. Following multimodal
pretraining and task-specific instruction tuning, PUMA demonstrates proficiency
in a wide range of multimodal tasks. This work represents a significant step
towards a truly unified MLLM capable of adapting to the granularity demands of
various visual tasks. The code and model will be released in
https://github.com/rongyaofang/PUMA.Summary
AI-Generated Summary