ChatPaper.aiChatPaper

Mini-Gemini: Het potentieel benutten van multimodale visueel-taalkundige modellen

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

March 27, 2024
Auteurs: Yanwei Li, Yuechen Zhang, Chengyao Wang, Zhisheng Zhong, Yixin Chen, Ruihang Chu, Shaoteng Liu, Jiaya Jia
cs.AI

Samenvatting

In dit werk introduceren we Mini-Gemini, een eenvoudig en effectief raamwerk dat multi-modaliteit Vision Language Models (VLMs) verbetert. Ondanks de vooruitgang in VLMs die basisvisuele dialoog en redenering mogelijk maken, blijft er een prestatiekloof bestaan in vergelijking met geavanceerde modellen zoals GPT-4 en Gemini. We proberen deze kloof te verkleinen door het potentieel van VLMs te benutten voor betere prestaties en een any-to-any workflow vanuit drie aspecten, namelijk hoogresolutie visuele tokens, hoogwaardige data en VLM-gestuurde generatie. Om visuele tokens te verbeteren, stellen we voor om een extra visuele encoder te gebruiken voor hoogresolutieverfijning zonder het aantal visuele tokens te verhogen. We construeren verder een hoogwaardige dataset die nauwkeurig beeldbegrip en redeneringsgebaseerde generatie bevordert, waardoor het operationele bereik van huidige VLMs wordt uitgebreid. Over het algemeen benut Mini-Gemini het potentieel van VLMs verder en versterkt het huidige raamwerken met beeldbegrip, redenering en generatie tegelijkertijd. Mini-Gemini ondersteunt een reeks dense en MoE Large Language Models (LLMs) van 2B tot 34B. Het blijkt toonaangevende prestaties te behalen in verschillende zero-shot benchmarks en overtreft zelfs ontwikkelde private modellen. Code en modellen zijn beschikbaar op https://github.com/dvlab-research/MiniGemini.
English
In this work, we introduce Mini-Gemini, a simple and effective framework enhancing multi-modality Vision Language Models (VLMs). Despite the advancements in VLMs facilitating basic visual dialog and reasoning, a performance gap persists compared to advanced models like GPT-4 and Gemini. We try to narrow the gap by mining the potential of VLMs for better performance and any-to-any workflow from three aspects, i.e., high-resolution visual tokens, high-quality data, and VLM-guided generation. To enhance visual tokens, we propose to utilize an additional visual encoder for high-resolution refinement without increasing the visual token count. We further construct a high-quality dataset that promotes precise image comprehension and reasoning-based generation, expanding the operational scope of current VLMs. In general, Mini-Gemini further mines the potential of VLMs and empowers current frameworks with image understanding, reasoning, and generation simultaneously. Mini-Gemini supports a series of dense and MoE Large Language Models (LLMs) from 2B to 34B. It is demonstrated to achieve leading performance in several zero-shot benchmarks and even surpasses the developed private models. Code and models are available at https://github.com/dvlab-research/MiniGemini.
PDF474February 8, 2026