미니-제미니: 멀티모달 비전 언어 모델의 잠재력 발굴
Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models
March 27, 2024
저자: Yanwei Li, Yuechen Zhang, Chengyao Wang, Zhisheng Zhong, Yixin Chen, Ruihang Chu, Shaoteng Liu, Jiaya Jia
cs.AI
초록
본 연구에서는 다중 모달리티 비전 언어 모델(VLMs)의 성능을 향상시키는 간단하면서도 효과적인 프레임워크인 Mini-Gemini를 소개합니다. VLMs의 발전으로 기본적인 시각적 대화와 추론이 가능해졌음에도 불구하고, GPT-4 및 Gemini와 같은 고급 모델과의 성능 격차는 여전히 존재합니다. 우리는 VLMs의 잠재력을 발굴하여 성능과 any-to-any 워크플로우를 개선하기 위해 세 가지 측면, 즉 고해상도 시각 토큰, 고품질 데이터, 그리고 VLM 기반 생성을 통해 이 격차를 좁히고자 합니다. 시각 토큰을 강화하기 위해, 우리는 시각 토큰 수를 증가시키지 않으면서 고해상도 정제를 위한 추가적인 시각 인코더를 활용할 것을 제안합니다. 또한, 정확한 이미지 이해와 추론 기반 생성을 촉진하는 고품질 데이터셋을 구축하여 현재 VLMs의 운영 범위를 확장합니다. 전반적으로, Mini-Gemini는 VLMs의 잠재력을 더욱 발굴하고, 현재 프레임워크에 이미지 이해, 추론, 생성을 동시에 가능하게 합니다. Mini-Gemini는 2B에서 34B에 이르는 다양한 밀집 및 MoE 대형 언어 모델(LLMs)을 지원하며, 여러 제로샷 벤치마크에서 선도적인 성능을 달성하고 심지어 개발된 사설 모델을 능가하는 것으로 입증되었습니다. 코드와 모델은 https://github.com/dvlab-research/MiniGemini에서 확인할 수 있습니다.
English
In this work, we introduce Mini-Gemini, a simple and effective framework
enhancing multi-modality Vision Language Models (VLMs). Despite the
advancements in VLMs facilitating basic visual dialog and reasoning, a
performance gap persists compared to advanced models like GPT-4 and Gemini. We
try to narrow the gap by mining the potential of VLMs for better performance
and any-to-any workflow from three aspects, i.e., high-resolution visual
tokens, high-quality data, and VLM-guided generation. To enhance visual tokens,
we propose to utilize an additional visual encoder for high-resolution
refinement without increasing the visual token count. We further construct a
high-quality dataset that promotes precise image comprehension and
reasoning-based generation, expanding the operational scope of current VLMs. In
general, Mini-Gemini further mines the potential of VLMs and empowers current
frameworks with image understanding, reasoning, and generation simultaneously.
Mini-Gemini supports a series of dense and MoE Large Language Models (LLMs)
from 2B to 34B. It is demonstrated to achieve leading performance in several
zero-shot benchmarks and even surpasses the developed private models. Code and
models are available at https://github.com/dvlab-research/MiniGemini.Summary
AI-Generated Summary