DenseFusion-1M: Fusion Densa de Expertos en Visión para una Percepción Multimodal Integral

Resumen

Los Modelos de Lenguaje Multimodales Grandes (MLLMs) existentes enfatizan cada vez más la comprensión compleja de varios elementos visuales, incluidos múltiples objetos, información de texto y relaciones espaciales. Su desarrollo para la percepción visual integral depende de la disponibilidad de conjuntos de datos imagen-texto de alta calidad que ofrezcan diversos elementos visuales y descripciones de imágenes a lo largo. Sin embargo, la escasez de tales conjuntos de datos hiperdetallados actualmente obstaculiza el progreso dentro de la comunidad de MLLM. El cuello de botella se origina en las capacidades perceptivas limitadas de los motores de subtítulos actuales, que no logran proporcionar anotaciones completas y precisas. Para facilitar la investigación de vanguardia de los MLLMs sobre la percepción visual integral, proponemos por lo tanto la Fusión Perceptual, utilizando un motor de subtítulos de bajo presupuesto pero altamente efectivo para descripciones completas y precisas de imágenes. Específicamente, la Fusión Perceptual integra diversos expertos en percepción como priors de imagen para proporcionar información explícita sobre elementos visuales y adopta un MLLM eficiente como pivote central para imitar las habilidades de percepción avanzadas de los MLLMs. Seleccionamos cuidadosamente 1M imágenes altamente representativas del conjunto de datos LAION no curado y generamos descripciones densas utilizando nuestro motor, denominado DenseFusion-1M. Experimentos extensos validan que nuestro motor supera a sus contrapartes, donde el conjunto de datos resultante mejora significativamente las habilidades de percepción y cognición de los MLLMs existentes en diversos benchmarks de visión-lenguaje, especialmente con imágenes de alta resolución como entradas. El conjunto de datos y el código están disponibles públicamente en https://github.com/baaivision/DenseFusion.

English

Existing Multimodal Large Language Models (MLLMs) increasingly emphasize complex understanding of various visual elements, including multiple objects, text information, and spatial relations. Their development for comprehensive visual perception hinges on the availability of high-quality image-text datasets that offer diverse visual elements and throughout image descriptions. However, the scarcity of such hyper-detailed datasets currently hinders progress within the MLLM community. The bottleneck stems from the limited perceptual capabilities of current caption engines, which fall short in providing complete and accurate annotations. To facilitate the cutting-edge research of MLLMs on comprehensive vision perception, we thereby propose Perceptual Fusion, using a low-budget but highly effective caption engine for complete and accurate image descriptions. Specifically, Perceptual Fusion integrates diverse perception experts as image priors to provide explicit information on visual elements and adopts an efficient MLLM as a centric pivot to mimic advanced MLLMs' perception abilities. We carefully select 1M highly representative images from uncurated LAION dataset and generate dense descriptions using our engine, dubbed DenseFusion-1M. Extensive experiments validate that our engine outperforms its counterparts, where the resulting dataset significantly improves the perception and cognition abilities of existing MLLMs across diverse vision-language benchmarks, especially with high-resolution images as inputs. The dataset and code are publicly available at https://github.com/baaivision/DenseFusion.

DenseFusion-1M: Fusion Densa de Expertos en Visión para una Percepción Multimodal Integral

DenseFusion-1M: Merging Vision Experts for Comprehensive Multimodal Perception

Resumen

Support