MG-LLaVA: Auf dem Weg zur Feinabstimmung visueller Anweisungen mit mehreren Granularitäten

papers.abstract

Multi-modale große Sprachmodelle (MLLMs) haben bedeutende Fortschritte in verschiedenen visuellen Verständnisaufgaben gemacht. Allerdings sind die meisten dieser Modelle darauf beschränkt, Bilder mit geringer Auflösung zu verarbeiten, was ihre Effektivität bei Wahrnehmungsaufgaben einschränkt, die detaillierte visuelle Informationen erfordern. In unserer Studie präsentieren wir MG-LLaVA, ein innovatives MLLM, das die visuelle Verarbeitungsfähigkeiten des Modells verbessert, indem es einen Multi-Granularitäts-Vision-Flow integriert, der Merkmale mit geringer Auflösung, hoher Auflösung und objektorientierte Merkmale umfasst. Wir schlagen die Integration eines zusätzlichen Hochauflösungs-Visuellenkoders vor, um feingranulare Details zu erfassen, die dann mit Basis-Visuellenmerkmalen durch ein Conv-Gate-Fusionsnetzwerk verschmolzen werden. Um die Objekterkennungsfähigkeiten des Modells weiter zu verfeinern, integrieren wir objektbezogene Merkmale, die aus von Offline-Detektoren identifizierten Bounding-Boxen abgeleitet sind. MG-LLaVA, das ausschließlich an öffentlich verfügbaren multimodalen Daten durch Instruktionstuning trainiert wird, zeigt außergewöhnliche Wahrnehmungsfähigkeiten. Wir instanziieren MG-LLaVA mit einer Vielzahl von Sprachkodierern, die von 3,8B bis 34B reichen, um die Leistung des Modells umfassend zu bewerten. Umfangreiche Bewertungen über mehrere Benchmarks hinweg zeigen, dass MG-LLaVA bestehende MLLMs vergleichbarer Parametergrößen übertrifft und seine bemerkenswerte Wirksamkeit zeigt. Der Code wird unter https://github.com/PhoenixZ810/MG-LLaVA verfügbar sein.

English

Multi-modal large language models (MLLMs) have made significant strides in various visual understanding tasks. However, the majority of these models are constrained to process low-resolution images, which limits their effectiveness in perception tasks that necessitate detailed visual information. In our study, we present MG-LLaVA, an innovative MLLM that enhances the model's visual processing capabilities by incorporating a multi-granularity vision flow, which includes low-resolution, high-resolution, and object-centric features. We propose the integration of an additional high-resolution visual encoder to capture fine-grained details, which are then fused with base visual features through a Conv-Gate fusion network. To further refine the model's object recognition abilities, we incorporate object-level features derived from bounding boxes identified by offline detectors. Being trained solely on publicly available multimodal data through instruction tuning, MG-LLaVA demonstrates exceptional perception skills. We instantiate MG-LLaVA with a wide variety of language encoders, ranging from 3.8B to 34B, to evaluate the model's performance comprehensively. Extensive evaluations across multiple benchmarks demonstrate that MG-LLaVA outperforms existing MLLMs of comparable parameter sizes, showcasing its remarkable efficacy. The code will be available at https://github.com/PhoenixZ810/MG-LLaVA.

MG-LLaVA: Auf dem Weg zur Feinabstimmung visueller Anweisungen mit mehreren Granularitäten

MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning

papers.abstract

Support