ChatPaper.aiChatPaper

Florence-VL: Het verbeteren van visie-taal modellen met generatieve visie-encoder en diepte-breedte fusie.

Florence-VL: Enhancing Vision-Language Models with Generative Vision Encoder and Depth-Breadth Fusion

December 5, 2024
Auteurs: Jiuhai Chen, Jianwei Yang, Haiping Wu, Dianqi Li, Jianfeng Gao, Tianyi Zhou, Bin Xiao
cs.AI

Samenvatting

Wij presenteren Florence-VL, een nieuwe familie van multimodale grote taalmodellen (MLLM's) met verrijkte visuele representaties geproduceerd door Florence-2, een generatief visueel grondslagmodel. In tegenstelling tot de veelgebruikte CLIP-stijl vision transformer die is getraind door contrastief leren, kan Florence-2 verschillende niveaus en aspecten van visuele kenmerken vastleggen, die veelzijdiger zijn om aangepast te worden aan diverse downstream taken. Wij stellen een nieuw feature-fusie architectuur voor en een innovatief trainingsrecept dat effectief Florence-2's visuele kenmerken integreert in vooraf getrainde LLM's, zoals Phi 3.5 en LLama 3. In het bijzonder stellen wij "diepte-adem fusie (DBFusion)" voor om de visuele kenmerken die zijn geëxtraheerd uit verschillende diepten en onder meerdere prompts te fuseren. Onze modeltraining bestaat uit end-to-end vooraftraining van het hele model gevolgd door fijnafstemming van de projectielaag en de LLM, op basis van een zorgvuldig ontworpen recept van diverse open-source datasets die onder andere hoogwaardige afbeelding bijschriften en instructie-afstemmingsparen bevatten. Onze kwantitatieve analyse en visualisatie van Florence-VL's visuele kenmerken tonen de voordelen ervan ten opzichte van populaire vision encoders op visie-taal uitlijning, waarbij de verrijkte diepte en adem belangrijke rollen spelen. Florence-VL behaalt aanzienlijke verbeteringen ten opzichte van bestaande state-of-the-art MLLM's over verschillende multimodale en visie-gerichte benchmarks die algemene VQA, perceptie, hallucinatie, OCR, grafiek, kennisintensief begrip, enz. omvatten. Om toekomstig onderzoek te vergemakkelijken, zijn onze modellen en het volledige trainingsrecept open-source beschikbaar. https://github.com/JiuhaiChen/Florence-VL
English
We present Florence-VL, a new family of multimodal large language models (MLLMs) with enriched visual representations produced by Florence-2, a generative vision foundation model. Unlike the widely used CLIP-style vision transformer trained by contrastive learning, Florence-2 can capture different levels and aspects of visual features, which are more versatile to be adapted to diverse downstream tasks. We propose a novel feature-fusion architecture and an innovative training recipe that effectively integrates Florence-2's visual features into pretrained LLMs, such as Phi 3.5 and LLama 3. In particular, we propose "depth-breath fusion (DBFusion)" to fuse the visual features extracted from different depths and under multiple prompts. Our model training is composed of end-to-end pretraining of the whole model followed by finetuning of the projection layer and the LLM, on a carefully designed recipe of diverse open-source datasets that include high-quality image captions and instruction-tuning pairs. Our quantitative analysis and visualization of Florence-VL's visual features show its advantages over popular vision encoders on vision-language alignment, where the enriched depth and breath play important roles. Florence-VL achieves significant improvements over existing state-of-the-art MLLMs across various multi-modal and vision-centric benchmarks covering general VQA, perception, hallucination, OCR, Chart, knowledge-intensive understanding, etc. To facilitate future research, our models and the complete training recipe are open-sourced. https://github.com/JiuhaiChen/Florence-VL
PDF644December 6, 2024