ChatPaper.aiChatPaper

DenseFusion-1M: 포괄적인 멀티모달 인식을 위한 비전 전문가 통합

DenseFusion-1M: Merging Vision Experts for Comprehensive Multimodal Perception

July 11, 2024
저자: Xiaotong Li, Fan Zhang, Haiwen Diao, Yueze Wang, Xinlong Wang, Ling-Yu Duan
cs.AI

초록

기존의 다중모달 대형 언어 모델(MLLM)은 여러 객체, 텍스트 정보, 공간 관계 등 다양한 시각 요소에 대한 복잡한 이해를 점점 더 강조하고 있습니다. 이러한 포괄적인 시각 인지 능력을 개발하기 위해서는 다양한 시각 요소와 상세한 이미지 설명을 제공하는 고품질의 이미지-텍스트 데이터셋의 가용성이 핵심입니다. 그러나 현재 이러한 초세밀 데이터셋의 부족은 MLLM 커뮤니티의 발전을 저해하고 있습니다. 이러한 병목 현상은 현재의 캡션 엔진이 완전하고 정확한 주석을 제공하는 데 한계가 있는 제한된 인지 능력에서 비롯됩니다. 포괄적인 시각 인지에 대한 MLLM의 최첨단 연구를 촉진하기 위해, 우리는 완전하고 정확한 이미지 설명을 위한 저예산이지만 매우 효과적인 캡션 엔진인 Perceptual Fusion을 제안합니다. 구체적으로, Perceptual Fusion은 다양한 인지 전문가를 이미지 사전 정보로 통합하여 시각 요소에 대한 명시적인 정보를 제공하고, 고급 MLLM의 인지 능력을 모방하기 위한 중심 축으로 효율적인 MLLM을 채택합니다. 우리는 비정제된 LAION 데이터셋에서 100만 개의 대표성이 높은 이미지를 신중하게 선택하고, DenseFusion-1M이라는 이름의 엔진을 사용하여 밀도 높은 설명을 생성합니다. 광범위한 실험을 통해 우리의 엔진이 경쟁 제품을 능가하며, 결과 데이터셋이 다양한 시각-언어 벤치마크에서 기존 MLLM의 인지 및 인식 능력을 크게 향상시킴을 검증했습니다. 특히 고해상도 이미지를 입력으로 사용할 때 이러한 개선이 두드러졌습니다. 데이터셋과 코드는 https://github.com/baaivision/DenseFusion에서 공개적으로 이용 가능합니다.
English
Existing Multimodal Large Language Models (MLLMs) increasingly emphasize complex understanding of various visual elements, including multiple objects, text information, and spatial relations. Their development for comprehensive visual perception hinges on the availability of high-quality image-text datasets that offer diverse visual elements and throughout image descriptions. However, the scarcity of such hyper-detailed datasets currently hinders progress within the MLLM community. The bottleneck stems from the limited perceptual capabilities of current caption engines, which fall short in providing complete and accurate annotations. To facilitate the cutting-edge research of MLLMs on comprehensive vision perception, we thereby propose Perceptual Fusion, using a low-budget but highly effective caption engine for complete and accurate image descriptions. Specifically, Perceptual Fusion integrates diverse perception experts as image priors to provide explicit information on visual elements and adopts an efficient MLLM as a centric pivot to mimic advanced MLLMs' perception abilities. We carefully select 1M highly representative images from uncurated LAION dataset and generate dense descriptions using our engine, dubbed DenseFusion-1M. Extensive experiments validate that our engine outperforms its counterparts, where the resulting dataset significantly improves the perception and cognition abilities of existing MLLMs across diverse vision-language benchmarks, especially with high-resolution images as inputs. The dataset and code are publicly available at https://github.com/baaivision/DenseFusion.

Summary

AI-Generated Summary

PDF192November 28, 2024