Mini-Gemini: Explorando o Potencial dos Modelos de Linguagem Visual Multimodal
Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models
March 27, 2024
Autores: Yanwei Li, Yuechen Zhang, Chengyao Wang, Zhisheng Zhong, Yixin Chen, Ruihang Chu, Shaoteng Liu, Jiaya Jia
cs.AI
Resumo
Neste trabalho, apresentamos o Mini-Gemini, uma estrutura simples e eficaz que aprimora os Modelos de Linguagem Visual (VLMs) multimodais. Apesar dos avanços nos VLMs que facilitam o diálogo visual básico e o raciocínio, ainda existe uma lacuna de desempenho em comparação com modelos avançados como o GPT-4 e o Gemini. Buscamos reduzir essa lacuna explorando o potencial dos VLMs para melhorar o desempenho e o fluxo de trabalho de qualquer para qualquer, considerando três aspectos: tokens visuais de alta resolução, dados de alta qualidade e geração guiada por VLM. Para aprimorar os tokens visuais, propomos a utilização de um codificador visual adicional para refinamento de alta resolução sem aumentar o número de tokens visuais. Além disso, construímos um conjunto de dados de alta qualidade que promove a compreensão precisa de imagens e a geração baseada em raciocínio, expandindo o escopo operacional dos VLMs atuais. Em geral, o Mini-Gemini explora ainda mais o potencial dos VLMs e capacita as estruturas atuais com compreensão de imagens, raciocínio e geração simultaneamente. O Mini-Gemini suporta uma série de Modelos de Linguagem de Grande Escala (LLMs) densos e MoE, variando de 2B a 34B. Demonstramos que ele alcança desempenho líder em vários benchmarks de zero-shot e até supera modelos privados desenvolvidos. O código e os modelos estão disponíveis em https://github.com/dvlab-research/MiniGemini.
English
In this work, we introduce Mini-Gemini, a simple and effective framework
enhancing multi-modality Vision Language Models (VLMs). Despite the
advancements in VLMs facilitating basic visual dialog and reasoning, a
performance gap persists compared to advanced models like GPT-4 and Gemini. We
try to narrow the gap by mining the potential of VLMs for better performance
and any-to-any workflow from three aspects, i.e., high-resolution visual
tokens, high-quality data, and VLM-guided generation. To enhance visual tokens,
we propose to utilize an additional visual encoder for high-resolution
refinement without increasing the visual token count. We further construct a
high-quality dataset that promotes precise image comprehension and
reasoning-based generation, expanding the operational scope of current VLMs. In
general, Mini-Gemini further mines the potential of VLMs and empowers current
frameworks with image understanding, reasoning, and generation simultaneously.
Mini-Gemini supports a series of dense and MoE Large Language Models (LLMs)
from 2B to 34B. It is demonstrated to achieve leading performance in several
zero-shot benchmarks and even surpasses the developed private models. Code and
models are available at https://github.com/dvlab-research/MiniGemini.