ChatPaper.aiChatPaper

PUMA: Potenziare MLLM Unificato con Generazione Visiva Multigranulare

PUMA: Empowering Unified MLLM with Multi-granular Visual Generation

October 17, 2024
Autori: Rongyao Fang, Chengqi Duan, Kun Wang, Hao Li, Hao Tian, Xingyu Zeng, Rui Zhao, Jifeng Dai, Hongsheng Li, Xihui Liu
cs.AI

Abstract

I recenti progressi nei modelli di base multimodali hanno portato a significativi avanzamenti nella comprensione visione-linguaggio. I primi tentativi hanno esplorato il potenziale dei grandi modelli di linguaggio multimodali (MLLM) per la generazione di contenuti visivi. Tuttavia, i lavori esistenti non hanno affrontato in modo sufficiente le diverse esigenze di granularità dei diversi compiti di generazione di immagini all'interno di un paradigma MLLM unificato - dalla diversità richiesta nella generazione di testo-immagine al controllo preciso necessario nella manipolazione delle immagini. In questo lavoro, proponiamo PUMA, emPowering Unified MLLM with Multi-grAnular visual generation. PUMA unifica le caratteristiche visive multigranulari sia come input che come output dei MLLM, affrontando in modo elegante i diversi requisiti di granularità dei vari compiti di generazione di immagini all'interno di un framework MLLM unificato. Dopo il preaddestramento multimodale e il tuning delle istruzioni specifiche del compito, PUMA dimostra competenza in una vasta gamma di compiti multimodali. Questo lavoro rappresenta un passo significativo verso un vero MLLM unificato in grado di adattarsi alle esigenze di granularità dei vari compiti visivi. Il codice e il modello saranno rilasciati su https://github.com/rongyaofang/PUMA.
English
Recent advancements in multimodal foundation models have yielded significant progress in vision-language understanding. Initial attempts have also explored the potential of multimodal large language models (MLLMs) for visual content generation. However, existing works have insufficiently addressed the varying granularity demands of different image generation tasks within a unified MLLM paradigm - from the diversity required in text-to-image generation to the precise controllability needed in image manipulation. In this work, we propose PUMA, emPowering Unified MLLM with Multi-grAnular visual generation. PUMA unifies multi-granular visual features as both inputs and outputs of MLLMs, elegantly addressing the different granularity requirements of various image generation tasks within a unified MLLM framework. Following multimodal pretraining and task-specific instruction tuning, PUMA demonstrates proficiency in a wide range of multimodal tasks. This work represents a significant step towards a truly unified MLLM capable of adapting to the granularity demands of various visual tasks. The code and model will be released in https://github.com/rongyaofang/PUMA.

Summary

AI-Generated Summary

PDF573November 16, 2024