MG-LLaVA: Verso una Sintonizzazione delle Istruzioni Visive Multi-Granularità
MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning
June 25, 2024
Autori: Xiangyu Zhao, Xiangtai Li, Haodong Duan, Haian Huang, Yining Li, Kai Chen, Hua Yang
cs.AI
Abstract
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno compiuto progressi significativi in vari compiti di comprensione visiva. Tuttavia, la maggior parte di questi modelli è limitata a elaborare immagini a bassa risoluzione, il che ne riduce l'efficacia nei compiti di percezione che richiedono informazioni visive dettagliate. Nel nostro studio, presentiamo MG-LLaVA, un MLLM innovativo che potenzia le capacità di elaborazione visiva del modello incorporando un flusso visivo multi-granularità, che include caratteristiche a bassa risoluzione, ad alta risoluzione e centrate sugli oggetti. Proponiamo l'integrazione di un ulteriore codificatore visivo ad alta risoluzione per catturare dettagli fini, che vengono poi fusi con le caratteristiche visive di base attraverso una rete di fusione Conv-Gate. Per affinare ulteriormente le capacità di riconoscimento degli oggetti del modello, incorporiamo caratteristiche a livello di oggetto derivate da bounding box identificate da rilevatori offline. Addestrato esclusivamente su dati multimodali pubblicamente disponibili tramite instruction tuning, MG-LLaVA dimostra abilità percettive eccezionali. Istanziamo MG-LLaVA con una vasta gamma di codificatori linguistici, che vanno da 3,8B a 34B, per valutare in modo completo le prestazioni del modello. Valutazioni estese su più benchmark dimostrano che MG-LLaVA supera gli MLLM esistenti di dimensioni parametriche comparabili, mostrando una notevole efficacia. Il codice sarà disponibile all'indirizzo https://github.com/PhoenixZ810/MG-LLaVA.
English
Multi-modal large language models (MLLMs) have made significant strides in
various visual understanding tasks. However, the majority of these models are
constrained to process low-resolution images, which limits their effectiveness
in perception tasks that necessitate detailed visual information. In our study,
we present MG-LLaVA, an innovative MLLM that enhances the model's visual
processing capabilities by incorporating a multi-granularity vision flow, which
includes low-resolution, high-resolution, and object-centric features. We
propose the integration of an additional high-resolution visual encoder to
capture fine-grained details, which are then fused with base visual features
through a Conv-Gate fusion network. To further refine the model's object
recognition abilities, we incorporate object-level features derived from
bounding boxes identified by offline detectors. Being trained solely on
publicly available multimodal data through instruction tuning, MG-LLaVA
demonstrates exceptional perception skills. We instantiate MG-LLaVA with a wide
variety of language encoders, ranging from 3.8B to 34B, to evaluate the model's
performance comprehensively. Extensive evaluations across multiple benchmarks
demonstrate that MG-LLaVA outperforms existing MLLMs of comparable parameter
sizes, showcasing its remarkable efficacy. The code will be available at
https://github.com/PhoenixZ810/MG-LLaVA.