MG-LLaVA: Auf dem Weg zur Feinabstimmung visueller Anweisungen mit mehreren Granularitäten
MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning
June 25, 2024
Autoren: Xiangyu Zhao, Xiangtai Li, Haodong Duan, Haian Huang, Yining Li, Kai Chen, Hua Yang
cs.AI
Zusammenfassung
Multi-modale große Sprachmodelle (MLLMs) haben bedeutende Fortschritte in verschiedenen visuellen Verständnisaufgaben gemacht. Allerdings sind die meisten dieser Modelle darauf beschränkt, Bilder mit geringer Auflösung zu verarbeiten, was ihre Effektivität bei Wahrnehmungsaufgaben einschränkt, die detaillierte visuelle Informationen erfordern. In unserer Studie präsentieren wir MG-LLaVA, ein innovatives MLLM, das die visuelle Verarbeitungsfähigkeiten des Modells verbessert, indem es einen Multi-Granularitäts-Vision-Flow integriert, der Merkmale mit geringer Auflösung, hoher Auflösung und objektorientierte Merkmale umfasst. Wir schlagen die Integration eines zusätzlichen Hochauflösungs-Visuellenkoders vor, um feingranulare Details zu erfassen, die dann mit Basis-Visuellenmerkmalen durch ein Conv-Gate-Fusionsnetzwerk verschmolzen werden. Um die Objekterkennungsfähigkeiten des Modells weiter zu verfeinern, integrieren wir objektbezogene Merkmale, die aus von Offline-Detektoren identifizierten Bounding-Boxen abgeleitet sind. MG-LLaVA, das ausschließlich an öffentlich verfügbaren multimodalen Daten durch Instruktionstuning trainiert wird, zeigt außergewöhnliche Wahrnehmungsfähigkeiten. Wir instanziieren MG-LLaVA mit einer Vielzahl von Sprachkodierern, die von 3,8B bis 34B reichen, um die Leistung des Modells umfassend zu bewerten. Umfangreiche Bewertungen über mehrere Benchmarks hinweg zeigen, dass MG-LLaVA bestehende MLLMs vergleichbarer Parametergrößen übertrifft und seine bemerkenswerte Wirksamkeit zeigt. Der Code wird unter https://github.com/PhoenixZ810/MG-LLaVA verfügbar sein.
English
Multi-modal large language models (MLLMs) have made significant strides in
various visual understanding tasks. However, the majority of these models are
constrained to process low-resolution images, which limits their effectiveness
in perception tasks that necessitate detailed visual information. In our study,
we present MG-LLaVA, an innovative MLLM that enhances the model's visual
processing capabilities by incorporating a multi-granularity vision flow, which
includes low-resolution, high-resolution, and object-centric features. We
propose the integration of an additional high-resolution visual encoder to
capture fine-grained details, which are then fused with base visual features
through a Conv-Gate fusion network. To further refine the model's object
recognition abilities, we incorporate object-level features derived from
bounding boxes identified by offline detectors. Being trained solely on
publicly available multimodal data through instruction tuning, MG-LLaVA
demonstrates exceptional perception skills. We instantiate MG-LLaVA with a wide
variety of language encoders, ranging from 3.8B to 34B, to evaluate the model's
performance comprehensively. Extensive evaluations across multiple benchmarks
demonstrate that MG-LLaVA outperforms existing MLLMs of comparable parameter
sizes, showcasing its remarkable efficacy. The code will be available at
https://github.com/PhoenixZ810/MG-LLaVA.Summary
AI-Generated Summary