ChatPaper.aiChatPaper

Mini-Gemini: マルチモーダル視覚言語モデルの可能性を探る

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

March 27, 2024
著者: Yanwei Li, Yuechen Zhang, Chengyao Wang, Zhisheng Zhong, Yixin Chen, Ruihang Chu, Shaoteng Liu, Jiaya Jia
cs.AI

要旨

本研究では、マルチモーダルなVision Language Models(VLM)を強化するシンプルで効果的なフレームワークであるMini-Geminiを紹介します。VLMの進歩により基本的な視覚的対話と推論が可能になりましたが、GPT-4やGeminiのような先進モデルとの性能差は依然として存在します。我々は、高解像度の視覚トークン、高品質なデータ、VLMによる生成という3つの側面からVLMの潜在能力を引き出し、このギャップを縮めることを試みます。視覚トークンを強化するために、視覚トークンの数を増やさずに高解像度のリファインメントを行う追加の視覚エンコーダを利用することを提案します。さらに、正確な画像理解と推論に基づく生成を促進する高品質なデータセットを構築し、現在のVLMの運用範囲を拡大します。一般的に、Mini-GeminiはVLMの潜在能力をさらに掘り下げ、現在のフレームワークに画像理解、推論、生成を同時に可能にします。Mini-Geminiは、2Bから34Bまでの一連の密なモデルとMoE Large Language Models(LLM)をサポートします。いくつかのゼロショットベンチマークでリーディングな性能を達成し、開発されたプライベートモデルを凌駕することも実証されています。コードとモデルはhttps://github.com/dvlab-research/MiniGeminiで公開されています。
English
In this work, we introduce Mini-Gemini, a simple and effective framework enhancing multi-modality Vision Language Models (VLMs). Despite the advancements in VLMs facilitating basic visual dialog and reasoning, a performance gap persists compared to advanced models like GPT-4 and Gemini. We try to narrow the gap by mining the potential of VLMs for better performance and any-to-any workflow from three aspects, i.e., high-resolution visual tokens, high-quality data, and VLM-guided generation. To enhance visual tokens, we propose to utilize an additional visual encoder for high-resolution refinement without increasing the visual token count. We further construct a high-quality dataset that promotes precise image comprehension and reasoning-based generation, expanding the operational scope of current VLMs. In general, Mini-Gemini further mines the potential of VLMs and empowers current frameworks with image understanding, reasoning, and generation simultaneously. Mini-Gemini supports a series of dense and MoE Large Language Models (LLMs) from 2B to 34B. It is demonstrated to achieve leading performance in several zero-shot benchmarks and even surpasses the developed private models. Code and models are available at https://github.com/dvlab-research/MiniGemini.

Summary

AI-Generated Summary

PDF484December 15, 2024