DenseFusion-1M: Integrazione di Esperti Visivi per una Percezione Multimodale Completa
DenseFusion-1M: Merging Vision Experts for Comprehensive Multimodal Perception
July 11, 2024
Autori: Xiaotong Li, Fan Zhang, Haiwen Diao, Yueze Wang, Xinlong Wang, Ling-Yu Duan
cs.AI
Abstract
I Modelli Linguistici Multimodali di Grande Scala (MLLM) esistenti stanno sempre più enfatizzando una comprensione complessa di vari elementi visivi, inclusi oggetti multipli, informazioni testuali e relazioni spaziali. Il loro sviluppo per una percezione visiva completa dipende dalla disponibilità di dataset immagine-testo di alta qualità che offrano elementi visivi diversificati e descrizioni dettagliate delle immagini. Tuttavia, la scarsità di tali dataset iper-dettagliati attualmente ostacola i progressi all'interno della comunità MLLM. Il collo di bottiglia deriva dalle limitate capacità percettive dei motori di descrizione attuali, che non riescono a fornire annotazioni complete e accurate. Per facilitare la ricerca all'avanguardia degli MLLM sulla percezione visiva completa, proponiamo quindi il Perceptual Fusion, utilizzando un motore di descrizione a basso costo ma altamente efficace per generare descrizioni complete e accurate delle immagini. Nello specifico, il Perceptual Fusion integra esperti di percezione diversificati come priorità immagine per fornire informazioni esplicite sugli elementi visivi e adotta un MLLM efficiente come perno centrale per imitare le capacità percettive degli MLLM avanzati. Abbiamo selezionato con cura 1 milione di immagini altamente rappresentative dal dataset non curato LAION e generato descrizioni dense utilizzando il nostro motore, denominato DenseFusion-1M. Esperimenti estensivi convalidano che il nostro motore supera i suoi concorrenti, dove il dataset risultante migliora significativamente le capacità percettive e cognitive degli MLLM esistenti su vari benchmark di visione e linguaggio, specialmente con immagini ad alta risoluzione come input. Il dataset e il codice sono disponibili pubblicamente all'indirizzo https://github.com/baaivision/DenseFusion.
English
Existing Multimodal Large Language Models (MLLMs) increasingly emphasize
complex understanding of various visual elements, including multiple objects,
text information, and spatial relations. Their development for comprehensive
visual perception hinges on the availability of high-quality image-text
datasets that offer diverse visual elements and throughout image descriptions.
However, the scarcity of such hyper-detailed datasets currently hinders
progress within the MLLM community. The bottleneck stems from the limited
perceptual capabilities of current caption engines, which fall short in
providing complete and accurate annotations. To facilitate the cutting-edge
research of MLLMs on comprehensive vision perception, we thereby propose
Perceptual Fusion, using a low-budget but highly effective caption engine for
complete and accurate image descriptions. Specifically, Perceptual Fusion
integrates diverse perception experts as image priors to provide explicit
information on visual elements and adopts an efficient MLLM as a centric pivot
to mimic advanced MLLMs' perception abilities. We carefully select 1M highly
representative images from uncurated LAION dataset and generate dense
descriptions using our engine, dubbed DenseFusion-1M. Extensive experiments
validate that our engine outperforms its counterparts, where the resulting
dataset significantly improves the perception and cognition abilities of
existing MLLMs across diverse vision-language benchmarks, especially with
high-resolution images as inputs. The dataset and code are publicly available
at https://github.com/baaivision/DenseFusion.