DenseFusion-1M: Fusão Densa de 1 Milhão - Unindo Especialistas em Visão para uma Percepção Multimodal Abrangente
DenseFusion-1M: Merging Vision Experts for Comprehensive Multimodal Perception
July 11, 2024
Autores: Xiaotong Li, Fan Zhang, Haiwen Diao, Yueze Wang, Xinlong Wang, Ling-Yu Duan
cs.AI
Resumo
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) existentes enfatizam cada vez mais a compreensão complexa de vários elementos visuais, incluindo múltiplos objetos, informações de texto e relações espaciais. O desenvolvimento desses modelos para percepção visual abrangente depende da disponibilidade de conjuntos de dados imagem-texto de alta qualidade que ofereçam elementos visuais diversos e descrições de imagem abrangentes. No entanto, a escassez desses conjuntos de dados hiperdetalhados atualmente dificulta o progresso dentro da comunidade MLLM. O gargalo decorre das capacidades perceptuais limitadas das atuais engines de legenda, que não conseguem fornecer anotações completas e precisas. Para facilitar a pesquisa de ponta dos MLLMs sobre percepção visual abrangente, propomos a Fusão Perceptual, utilizando uma engine de legenda de baixo custo, porém altamente eficaz, para descrições completas e precisas de imagens. Especificamente, a Fusão Perceptual integra diversos especialistas em percepção como priores de imagem para fornecer informações explícitas sobre elementos visuais e adota um MLLM eficiente como pivô central para imitar as habilidades de percepção avançadas dos MLLMs. Selecionamos cuidadosamente 1 milhão de imagens altamente representativas do conjunto de dados LAION não curado e geramos descrições densas usando nossa engine, denominada DenseFusion-1M. Experimentos extensivos validam que nossa engine supera seus concorrentes, em que o conjunto de dados resultante melhora significativamente as habilidades de percepção e cognição dos MLLMs existentes em diversos benchmarks de visão-linguagem, especialmente com imagens de alta resolução como entradas. O conjunto de dados e o código estão disponíveis publicamente em https://github.com/baaivision/DenseFusion.
English
Existing Multimodal Large Language Models (MLLMs) increasingly emphasize
complex understanding of various visual elements, including multiple objects,
text information, and spatial relations. Their development for comprehensive
visual perception hinges on the availability of high-quality image-text
datasets that offer diverse visual elements and throughout image descriptions.
However, the scarcity of such hyper-detailed datasets currently hinders
progress within the MLLM community. The bottleneck stems from the limited
perceptual capabilities of current caption engines, which fall short in
providing complete and accurate annotations. To facilitate the cutting-edge
research of MLLMs on comprehensive vision perception, we thereby propose
Perceptual Fusion, using a low-budget but highly effective caption engine for
complete and accurate image descriptions. Specifically, Perceptual Fusion
integrates diverse perception experts as image priors to provide explicit
information on visual elements and adopts an efficient MLLM as a centric pivot
to mimic advanced MLLMs' perception abilities. We carefully select 1M highly
representative images from uncurated LAION dataset and generate dense
descriptions using our engine, dubbed DenseFusion-1M. Extensive experiments
validate that our engine outperforms its counterparts, where the resulting
dataset significantly improves the perception and cognition abilities of
existing MLLMs across diverse vision-language benchmarks, especially with
high-resolution images as inputs. The dataset and code are publicly available
at https://github.com/baaivision/DenseFusion.