MG-LLaVA: Op Weg naar Multi-Granulariteit Visuele Instructieafstemming
MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning
June 25, 2024
Auteurs: Xiangyu Zhao, Xiangtai Li, Haodong Duan, Haian Huang, Yining Li, Kai Chen, Hua Yang
cs.AI
Samenvatting
Multi-modale grote taalmodellen (MLLMs) hebben aanzienlijke vooruitgang geboekt in verschillende visuele begripstaken. Het merendeel van deze modellen is echter beperkt tot het verwerken van afbeeldingen met een lage resolutie, wat hun effectiviteit beperkt in perceptietaken die gedetailleerde visuele informatie vereisen. In ons onderzoek presenteren we MG-LLaVA, een innovatief MLLM dat de visuele verwerkingscapaciteiten van het model verbetert door een multi-granulariteit visuele stroom te integreren, die kenmerken op lage resolutie, hoge resolutie en objectniveau omvat. We stellen de integratie voor van een extra visuele encoder met hoge resolutie om fijnmazige details vast te leggen, die vervolgens worden samengevoegd met basisvisuele kenmerken via een Conv-Gate fusienetwerk. Om de objectherkenningsvaardigheden van het model verder te verfijnen, nemen we objectniveau kenmerken op die zijn afgeleid van begrenzingsvakken die door offline detectoren zijn geïdentificeerd. MG-LLaVA, dat uitsluitend is getraind op openbaar beschikbare multimodale gegevens door middel van instructieafstemming, toont uitzonderlijke perceptievaardigheden. We concretiseren MG-LLaVA met een breed scala aan taalencoders, variërend van 3,8B tot 34B, om de prestaties van het model uitgebreid te evalueren. Uitgebreide evaluaties over meerdere benchmarks tonen aan dat MG-LLaVA de bestaande MLLMs van vergelijkbare parametergrootten overtreft, wat zijn opmerkelijke effectiviteit aantoont. De code zal beschikbaar zijn op https://github.com/PhoenixZ810/MG-LLaVA.
English
Multi-modal large language models (MLLMs) have made significant strides in
various visual understanding tasks. However, the majority of these models are
constrained to process low-resolution images, which limits their effectiveness
in perception tasks that necessitate detailed visual information. In our study,
we present MG-LLaVA, an innovative MLLM that enhances the model's visual
processing capabilities by incorporating a multi-granularity vision flow, which
includes low-resolution, high-resolution, and object-centric features. We
propose the integration of an additional high-resolution visual encoder to
capture fine-grained details, which are then fused with base visual features
through a Conv-Gate fusion network. To further refine the model's object
recognition abilities, we incorporate object-level features derived from
bounding boxes identified by offline detectors. Being trained solely on
publicly available multimodal data through instruction tuning, MG-LLaVA
demonstrates exceptional perception skills. We instantiate MG-LLaVA with a wide
variety of language encoders, ranging from 3.8B to 34B, to evaluate the model's
performance comprehensively. Extensive evaluations across multiple benchmarks
demonstrate that MG-LLaVA outperforms existing MLLMs of comparable parameter
sizes, showcasing its remarkable efficacy. The code will be available at
https://github.com/PhoenixZ810/MG-LLaVA.