Florence-VL : Amélioration des modèles Vision-Language avec un Encodeur Vision Génératif et une Fusion en Profondeur-Largeur
Florence-VL: Enhancing Vision-Language Models with Generative Vision Encoder and Depth-Breadth Fusion
December 5, 2024
Auteurs: Jiuhai Chen, Jianwei Yang, Haiping Wu, Dianqi Li, Jianfeng Gao, Tianyi Zhou, Bin Xiao
cs.AI
Résumé
Nous présentons Florence-VL, une nouvelle famille de grands modèles de langage multimodaux (MLLMs) avec des représentations visuelles enrichies produites par Florence-2, un modèle de vision générative de base. Contrairement au transformer de vision de style CLIP largement utilisé, entraîné par apprentissage contrastif, Florence-2 peut capturer différents niveaux et aspects des caractéristiques visuelles, qui sont plus polyvalents pour être adaptés à diverses tâches en aval. Nous proposons une architecture de fusion de caractéristiques novatrice et une recette d'entraînement innovante qui intègre efficacement les caractéristiques visuelles de Florence-2 dans des MLLMs pré-entraînés, tels que Phi 3.5 et LLama 3. En particulier, nous proposons la "fusion en profondeur-largeur (DBFusion)" pour fusionner les caractéristiques visuelles extraites de différentes profondeurs et sous plusieurs invitations. Notre entraînement de modèle est composé d'un pré-entraînement de bout en bout de l'ensemble du modèle suivi d'un affinage de la couche de projection et du LLM, selon une recette soigneusement conçue de divers ensembles de données open source comprenant des légendes d'images de haute qualité et des paires d'ajustement d'instructions. Notre analyse quantitative et la visualisation des caractéristiques visuelles de Florence-VL montrent ses avantages par rapport aux encodeurs de vision populaires sur l'alignement vision-langage, où la profondeur et la largeur enrichies jouent des rôles importants. Florence-VL réalise des améliorations significatives par rapport aux MLLMs de pointe existants sur divers bancs d'essai multimodaux et centrés sur la vision couvrant la VQA générale, la perception, l'hallucination, l'OCR, les graphiques, la compréhension intensive des connaissances, etc. Pour faciliter la recherche future, nos modèles et la recette d'entraînement complète sont disponibles en open source. https://github.com/JiuhaiChen/Florence-VL
English
We present Florence-VL, a new family of multimodal large language models
(MLLMs) with enriched visual representations produced by Florence-2, a
generative vision foundation model. Unlike the widely used CLIP-style vision
transformer trained by contrastive learning, Florence-2 can capture different
levels and aspects of visual features, which are more versatile to be adapted
to diverse downstream tasks. We propose a novel feature-fusion architecture and
an innovative training recipe that effectively integrates Florence-2's visual
features into pretrained LLMs, such as Phi 3.5 and LLama 3. In particular, we
propose "depth-breath fusion (DBFusion)" to fuse the visual features extracted
from different depths and under multiple prompts. Our model training is
composed of end-to-end pretraining of the whole model followed by finetuning of
the projection layer and the LLM, on a carefully designed recipe of diverse
open-source datasets that include high-quality image captions and
instruction-tuning pairs. Our quantitative analysis and visualization of
Florence-VL's visual features show its advantages over popular vision encoders
on vision-language alignment, where the enriched depth and breath play
important roles. Florence-VL achieves significant improvements over existing
state-of-the-art MLLMs across various multi-modal and vision-centric benchmarks
covering general VQA, perception, hallucination, OCR, Chart,
knowledge-intensive understanding, etc. To facilitate future research, our
models and the complete training recipe are open-sourced.
https://github.com/JiuhaiChen/Florence-VLSummary
AI-Generated Summary