MG-LLaVA: Op Weg naar Multi-Granulariteit Visuele Instructieafstemming

Samenvatting

Multi-modale grote taalmodellen (MLLMs) hebben aanzienlijke vooruitgang geboekt in verschillende visuele begripstaken. Het merendeel van deze modellen is echter beperkt tot het verwerken van afbeeldingen met een lage resolutie, wat hun effectiviteit beperkt in perceptietaken die gedetailleerde visuele informatie vereisen. In ons onderzoek presenteren we MG-LLaVA, een innovatief MLLM dat de visuele verwerkingscapaciteiten van het model verbetert door een multi-granulariteit visuele stroom te integreren, die kenmerken op lage resolutie, hoge resolutie en objectniveau omvat. We stellen de integratie voor van een extra visuele encoder met hoge resolutie om fijnmazige details vast te leggen, die vervolgens worden samengevoegd met basisvisuele kenmerken via een Conv-Gate fusienetwerk. Om de objectherkenningsvaardigheden van het model verder te verfijnen, nemen we objectniveau kenmerken op die zijn afgeleid van begrenzingsvakken die door offline detectoren zijn geïdentificeerd. MG-LLaVA, dat uitsluitend is getraind op openbaar beschikbare multimodale gegevens door middel van instructieafstemming, toont uitzonderlijke perceptievaardigheden. We concretiseren MG-LLaVA met een breed scala aan taalencoders, variërend van 3,8B tot 34B, om de prestaties van het model uitgebreid te evalueren. Uitgebreide evaluaties over meerdere benchmarks tonen aan dat MG-LLaVA de bestaande MLLMs van vergelijkbare parametergrootten overtreft, wat zijn opmerkelijke effectiviteit aantoont. De code zal beschikbaar zijn op https://github.com/PhoenixZ810/MG-LLaVA.

English

Multi-modal large language models (MLLMs) have made significant strides in various visual understanding tasks. However, the majority of these models are constrained to process low-resolution images, which limits their effectiveness in perception tasks that necessitate detailed visual information. In our study, we present MG-LLaVA, an innovative MLLM that enhances the model's visual processing capabilities by incorporating a multi-granularity vision flow, which includes low-resolution, high-resolution, and object-centric features. We propose the integration of an additional high-resolution visual encoder to capture fine-grained details, which are then fused with base visual features through a Conv-Gate fusion network. To further refine the model's object recognition abilities, we incorporate object-level features derived from bounding boxes identified by offline detectors. Being trained solely on publicly available multimodal data through instruction tuning, MG-LLaVA demonstrates exceptional perception skills. We instantiate MG-LLaVA with a wide variety of language encoders, ranging from 3.8B to 34B, to evaluate the model's performance comprehensively. Extensive evaluations across multiple benchmarks demonstrate that MG-LLaVA outperforms existing MLLMs of comparable parameter sizes, showcasing its remarkable efficacy. The code will be available at https://github.com/PhoenixZ810/MG-LLaVA.

MG-LLaVA: Op Weg naar Multi-Granulariteit Visuele Instructieafstemming

MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning

Samenvatting

Support