DenseFusion-1M: Het Samenvoegen van Visie-experts voor Uitgebreide Multimodale Waarneming
DenseFusion-1M: Merging Vision Experts for Comprehensive Multimodal Perception
July 11, 2024
Auteurs: Xiaotong Li, Fan Zhang, Haiwen Diao, Yueze Wang, Xinlong Wang, Ling-Yu Duan
cs.AI
Samenvatting
Bestaande Multimodale Grote Taalmodellen (MLLMs) leggen steeds meer nadruk op het complexe begrip van diverse visuele elementen, waaronder meerdere objecten, tekstinformatie en ruimtelijke relaties. Hun ontwikkeling voor uitgebreide visuele waarneming hangt af van de beschikbaarheid van hoogwaardige beeld-tekst datasets die diverse visuele elementen en gedetailleerde beeldbeschrijvingen bieden. De schaarste aan dergelijke hypergedetailleerde datasets belemmert echter momenteel de vooruitgang binnen de MLLM-gemeenschap. Het knelpunt komt voort uit de beperkte waarnemingscapaciteiten van huidige caption engines, die tekortschieten in het leveren van volledige en nauwkeurige annotaties. Om baanbrekend onderzoek van MLLMs op het gebied van uitgebreide visuele waarneming te faciliteren, stellen wij daarom Perceptual Fusion voor, waarbij een low-budget maar zeer effectieve caption engine wordt gebruikt voor volledige en nauwkeurige beeldbeschrijvingen. Specifiek integreert Perceptual Fusion diverse waarnemingsexperts als beeldprioriteiten om expliciete informatie over visuele elementen te bieden en neemt het een efficiënte MLLM als centraal draaipunt om de waarnemingsvaardigheden van geavanceerde MLLMs na te bootsen. We hebben zorgvuldig 1 miljoen zeer representatieve afbeeldingen geselecteerd uit de ongecurateerde LAION-dataset en dichte beschrijvingen gegenereerd met onze engine, genaamd DenseFusion-1M. Uitgebreide experimenten valideren dat onze engine zijn tegenhangers overtreft, waarbij de resulterende dataset de waarnemings- en cognitieve vaardigheden van bestaande MLLMs aanzienlijk verbetert op diverse visie-taalbenchmarks, vooral bij hoge-resolutie afbeeldingen als invoer. De dataset en code zijn openbaar beschikbaar op https://github.com/baaivision/DenseFusion.
English
Existing Multimodal Large Language Models (MLLMs) increasingly emphasize
complex understanding of various visual elements, including multiple objects,
text information, and spatial relations. Their development for comprehensive
visual perception hinges on the availability of high-quality image-text
datasets that offer diverse visual elements and throughout image descriptions.
However, the scarcity of such hyper-detailed datasets currently hinders
progress within the MLLM community. The bottleneck stems from the limited
perceptual capabilities of current caption engines, which fall short in
providing complete and accurate annotations. To facilitate the cutting-edge
research of MLLMs on comprehensive vision perception, we thereby propose
Perceptual Fusion, using a low-budget but highly effective caption engine for
complete and accurate image descriptions. Specifically, Perceptual Fusion
integrates diverse perception experts as image priors to provide explicit
information on visual elements and adopts an efficient MLLM as a centric pivot
to mimic advanced MLLMs' perception abilities. We carefully select 1M highly
representative images from uncurated LAION dataset and generate dense
descriptions using our engine, dubbed DenseFusion-1M. Extensive experiments
validate that our engine outperforms its counterparts, where the resulting
dataset significantly improves the perception and cognition abilities of
existing MLLMs across diverse vision-language benchmarks, especially with
high-resolution images as inputs. The dataset and code are publicly available
at https://github.com/baaivision/DenseFusion.