ChatPaper.aiChatPaper

Florence-VL: Verbesserung von Vision-Sprach-Modellen mit generativem Vision-Encoder und Tiefen-Breiten-Fusion.

Florence-VL: Enhancing Vision-Language Models with Generative Vision Encoder and Depth-Breadth Fusion

December 5, 2024
Autoren: Jiuhai Chen, Jianwei Yang, Haiping Wu, Dianqi Li, Jianfeng Gao, Tianyi Zhou, Bin Xiao
cs.AI

Zusammenfassung

Wir präsentieren Florence-VL, eine neue Familie von multimodalen großen Sprachmodellen (MLLMs) mit angereicherten visuellen Repräsentationen, die von Florence-2, einem generativen Grundlagenmodell für Vision, erzeugt werden. Im Gegensatz zum weit verbreiteten CLIP-artigen Vision-Transformer, der durch kontrastives Lernen trainiert wird, kann Florence-2 verschiedene Ebenen und Aspekte visueller Merkmale erfassen, die vielseitiger für die Anpassung an vielfältige nachgelagerte Aufgaben sind. Wir schlagen eine neuartige Merkmalsverschmelzungsarchitektur und ein innovatives Schulungsrezept vor, das die visuellen Merkmale von Florence-2 effektiv in vorab trainierte LLMs wie Phi 3.5 und LLama 3 integriert. Insbesondere schlagen wir "Tiefen-Breiten-Verschmelzung (DBFusion)" vor, um die visuellen Merkmale zu verschmelzen, die aus verschiedenen Tiefen und unter mehreren Aufforderungen extrahiert wurden. Unser Modelltraining besteht aus dem End-to-End-Vortraining des gesamten Modells, gefolgt von der Feinabstimmung der Projektionsschicht und des LLMs, basierend auf einem sorgfältig konzipierten Rezept verschiedener Open-Source-Datensätze, die hochwertige Bildunterschriften und Anleitung-Abstimmungspaare enthalten. Unsere quantitative Analyse und Visualisierung der visuellen Merkmale von Florence-VL zeigen ihre Vorteile gegenüber beliebten Vision-Encodern bei der Vision-Sprach-Abstimmung, bei der die angereicherte Tiefe und Breite wichtige Rollen spielen. Florence-VL erzielt signifikante Verbesserungen gegenüber bestehenden State-of-the-Art MLLMs in verschiedenen multimodalen und visionzentrierten Benchmarks, die allgemeine VQA, Wahrnehmung, Halluzination, OCR, Diagramme, wissensintensive Verständnis usw. abdecken. Um zukünftige Forschung zu erleichtern, sind unsere Modelle und das vollständige Schulungsrezept Open Source verfügbar. https://github.com/JiuhaiChen/Florence-VL
English
We present Florence-VL, a new family of multimodal large language models (MLLMs) with enriched visual representations produced by Florence-2, a generative vision foundation model. Unlike the widely used CLIP-style vision transformer trained by contrastive learning, Florence-2 can capture different levels and aspects of visual features, which are more versatile to be adapted to diverse downstream tasks. We propose a novel feature-fusion architecture and an innovative training recipe that effectively integrates Florence-2's visual features into pretrained LLMs, such as Phi 3.5 and LLama 3. In particular, we propose "depth-breath fusion (DBFusion)" to fuse the visual features extracted from different depths and under multiple prompts. Our model training is composed of end-to-end pretraining of the whole model followed by finetuning of the projection layer and the LLM, on a carefully designed recipe of diverse open-source datasets that include high-quality image captions and instruction-tuning pairs. Our quantitative analysis and visualization of Florence-VL's visual features show its advantages over popular vision encoders on vision-language alignment, where the enriched depth and breath play important roles. Florence-VL achieves significant improvements over existing state-of-the-art MLLMs across various multi-modal and vision-centric benchmarks covering general VQA, perception, hallucination, OCR, Chart, knowledge-intensive understanding, etc. To facilitate future research, our models and the complete training recipe are open-sourced. https://github.com/JiuhaiChen/Florence-VL

Summary

AI-Generated Summary

PDF634December 6, 2024