ChatPaper.aiChatPaper

Florence-VL : Amélioration des modèles Vision-Language avec un Encodeur Vision Génératif et une Fusion en Profondeur-Largeur

Florence-VL: Enhancing Vision-Language Models with Generative Vision Encoder and Depth-Breadth Fusion

December 5, 2024
Auteurs: Jiuhai Chen, Jianwei Yang, Haiping Wu, Dianqi Li, Jianfeng Gao, Tianyi Zhou, Bin Xiao
cs.AI

Résumé

Nous présentons Florence-VL, une nouvelle famille de grands modèles de langage multimodaux (MLLMs) avec des représentations visuelles enrichies produites par Florence-2, un modèle de vision générative de base. Contrairement au transformer de vision de style CLIP largement utilisé, entraîné par apprentissage contrastif, Florence-2 peut capturer différents niveaux et aspects des caractéristiques visuelles, qui sont plus polyvalents pour être adaptés à diverses tâches en aval. Nous proposons une architecture de fusion de caractéristiques novatrice et une recette d'entraînement innovante qui intègre efficacement les caractéristiques visuelles de Florence-2 dans des MLLMs pré-entraînés, tels que Phi 3.5 et LLama 3. En particulier, nous proposons la "fusion en profondeur-largeur (DBFusion)" pour fusionner les caractéristiques visuelles extraites de différentes profondeurs et sous plusieurs invitations. Notre entraînement de modèle est composé d'un pré-entraînement de bout en bout de l'ensemble du modèle suivi d'un affinage de la couche de projection et du LLM, selon une recette soigneusement conçue de divers ensembles de données open source comprenant des légendes d'images de haute qualité et des paires d'ajustement d'instructions. Notre analyse quantitative et la visualisation des caractéristiques visuelles de Florence-VL montrent ses avantages par rapport aux encodeurs de vision populaires sur l'alignement vision-langage, où la profondeur et la largeur enrichies jouent des rôles importants. Florence-VL réalise des améliorations significatives par rapport aux MLLMs de pointe existants sur divers bancs d'essai multimodaux et centrés sur la vision couvrant la VQA générale, la perception, l'hallucination, l'OCR, les graphiques, la compréhension intensive des connaissances, etc. Pour faciliter la recherche future, nos modèles et la recette d'entraînement complète sont disponibles en open source. https://github.com/JiuhaiChen/Florence-VL
English
We present Florence-VL, a new family of multimodal large language models (MLLMs) with enriched visual representations produced by Florence-2, a generative vision foundation model. Unlike the widely used CLIP-style vision transformer trained by contrastive learning, Florence-2 can capture different levels and aspects of visual features, which are more versatile to be adapted to diverse downstream tasks. We propose a novel feature-fusion architecture and an innovative training recipe that effectively integrates Florence-2's visual features into pretrained LLMs, such as Phi 3.5 and LLama 3. In particular, we propose "depth-breath fusion (DBFusion)" to fuse the visual features extracted from different depths and under multiple prompts. Our model training is composed of end-to-end pretraining of the whole model followed by finetuning of the projection layer and the LLM, on a carefully designed recipe of diverse open-source datasets that include high-quality image captions and instruction-tuning pairs. Our quantitative analysis and visualization of Florence-VL's visual features show its advantages over popular vision encoders on vision-language alignment, where the enriched depth and breath play important roles. Florence-VL achieves significant improvements over existing state-of-the-art MLLMs across various multi-modal and vision-centric benchmarks covering general VQA, perception, hallucination, OCR, Chart, knowledge-intensive understanding, etc. To facilitate future research, our models and the complete training recipe are open-sourced. https://github.com/JiuhaiChen/Florence-VL

Summary

AI-Generated Summary

PDF634December 6, 2024