DenseFusion-1M: Fusion Densa de Expertos en Visión para una Percepción Multimodal Integral
DenseFusion-1M: Merging Vision Experts for Comprehensive Multimodal Perception
July 11, 2024
Autores: Xiaotong Li, Fan Zhang, Haiwen Diao, Yueze Wang, Xinlong Wang, Ling-Yu Duan
cs.AI
Resumen
Los Modelos de Lenguaje Multimodales Grandes (MLLMs) existentes enfatizan cada vez más la comprensión compleja de varios elementos visuales, incluidos múltiples objetos, información de texto y relaciones espaciales. Su desarrollo para la percepción visual integral depende de la disponibilidad de conjuntos de datos imagen-texto de alta calidad que ofrezcan diversos elementos visuales y descripciones de imágenes a lo largo. Sin embargo, la escasez de tales conjuntos de datos hiperdetallados actualmente obstaculiza el progreso dentro de la comunidad de MLLM. El cuello de botella se origina en las capacidades perceptivas limitadas de los motores de subtítulos actuales, que no logran proporcionar anotaciones completas y precisas. Para facilitar la investigación de vanguardia de los MLLMs sobre la percepción visual integral, proponemos por lo tanto la Fusión Perceptual, utilizando un motor de subtítulos de bajo presupuesto pero altamente efectivo para descripciones completas y precisas de imágenes. Específicamente, la Fusión Perceptual integra diversos expertos en percepción como priors de imagen para proporcionar información explícita sobre elementos visuales y adopta un MLLM eficiente como pivote central para imitar las habilidades de percepción avanzadas de los MLLMs. Seleccionamos cuidadosamente 1M imágenes altamente representativas del conjunto de datos LAION no curado y generamos descripciones densas utilizando nuestro motor, denominado DenseFusion-1M. Experimentos extensos validan que nuestro motor supera a sus contrapartes, donde el conjunto de datos resultante mejora significativamente las habilidades de percepción y cognición de los MLLMs existentes en diversos benchmarks de visión-lenguaje, especialmente con imágenes de alta resolución como entradas. El conjunto de datos y el código están disponibles públicamente en https://github.com/baaivision/DenseFusion.
English
Existing Multimodal Large Language Models (MLLMs) increasingly emphasize
complex understanding of various visual elements, including multiple objects,
text information, and spatial relations. Their development for comprehensive
visual perception hinges on the availability of high-quality image-text
datasets that offer diverse visual elements and throughout image descriptions.
However, the scarcity of such hyper-detailed datasets currently hinders
progress within the MLLM community. The bottleneck stems from the limited
perceptual capabilities of current caption engines, which fall short in
providing complete and accurate annotations. To facilitate the cutting-edge
research of MLLMs on comprehensive vision perception, we thereby propose
Perceptual Fusion, using a low-budget but highly effective caption engine for
complete and accurate image descriptions. Specifically, Perceptual Fusion
integrates diverse perception experts as image priors to provide explicit
information on visual elements and adopts an efficient MLLM as a centric pivot
to mimic advanced MLLMs' perception abilities. We carefully select 1M highly
representative images from uncurated LAION dataset and generate dense
descriptions using our engine, dubbed DenseFusion-1M. Extensive experiments
validate that our engine outperforms its counterparts, where the resulting
dataset significantly improves the perception and cognition abilities of
existing MLLMs across diverse vision-language benchmarks, especially with
high-resolution images as inputs. The dataset and code are publicly available
at https://github.com/baaivision/DenseFusion.Summary
AI-Generated Summary