ChatPaper.aiChatPaper

Mini-Gemini: Explorando o Potencial dos Modelos de Linguagem Visual Multimodal

Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

March 27, 2024
Autores: Yanwei Li, Yuechen Zhang, Chengyao Wang, Zhisheng Zhong, Yixin Chen, Ruihang Chu, Shaoteng Liu, Jiaya Jia
cs.AI

Resumo

Neste trabalho, apresentamos o Mini-Gemini, uma estrutura simples e eficaz que aprimora os Modelos de Linguagem Visual (VLMs) multimodais. Apesar dos avanços nos VLMs que facilitam o diálogo visual básico e o raciocínio, ainda existe uma lacuna de desempenho em comparação com modelos avançados como o GPT-4 e o Gemini. Buscamos reduzir essa lacuna explorando o potencial dos VLMs para melhorar o desempenho e o fluxo de trabalho de qualquer para qualquer, considerando três aspectos: tokens visuais de alta resolução, dados de alta qualidade e geração guiada por VLM. Para aprimorar os tokens visuais, propomos a utilização de um codificador visual adicional para refinamento de alta resolução sem aumentar o número de tokens visuais. Além disso, construímos um conjunto de dados de alta qualidade que promove a compreensão precisa de imagens e a geração baseada em raciocínio, expandindo o escopo operacional dos VLMs atuais. Em geral, o Mini-Gemini explora ainda mais o potencial dos VLMs e capacita as estruturas atuais com compreensão de imagens, raciocínio e geração simultaneamente. O Mini-Gemini suporta uma série de Modelos de Linguagem de Grande Escala (LLMs) densos e MoE, variando de 2B a 34B. Demonstramos que ele alcança desempenho líder em vários benchmarks de zero-shot e até supera modelos privados desenvolvidos. O código e os modelos estão disponíveis em https://github.com/dvlab-research/MiniGemini.
English
In this work, we introduce Mini-Gemini, a simple and effective framework enhancing multi-modality Vision Language Models (VLMs). Despite the advancements in VLMs facilitating basic visual dialog and reasoning, a performance gap persists compared to advanced models like GPT-4 and Gemini. We try to narrow the gap by mining the potential of VLMs for better performance and any-to-any workflow from three aspects, i.e., high-resolution visual tokens, high-quality data, and VLM-guided generation. To enhance visual tokens, we propose to utilize an additional visual encoder for high-resolution refinement without increasing the visual token count. We further construct a high-quality dataset that promotes precise image comprehension and reasoning-based generation, expanding the operational scope of current VLMs. In general, Mini-Gemini further mines the potential of VLMs and empowers current frameworks with image understanding, reasoning, and generation simultaneously. Mini-Gemini supports a series of dense and MoE Large Language Models (LLMs) from 2B to 34B. It is demonstrated to achieve leading performance in several zero-shot benchmarks and even surpasses the developed private models. Code and models are available at https://github.com/dvlab-research/MiniGemini.
PDF474February 8, 2026