ChatPaper.aiChatPaper

PONTOS: Melhorando seu Modelo de Linguagem de Visão com Estratégias Acessíveis

POINTS: Improving Your Vision-language Model with Affordable Strategies

September 7, 2024
Autores: Yuan Liu, Zhongyin Zhao, Ziyuan Zhuang, Le Tian, Xiao Zhou, Jie Zhou
cs.AI

Resumo

Nos últimos anos, os modelos de visão e linguagem deram passos significativos, destacando-se em tarefas como reconhecimento óptico de caracteres e resolução de problemas geométricos. No entanto, várias questões críticas permanecem: 1) Modelos proprietários frequentemente carecem de transparência sobre suas arquiteturas, enquanto modelos de código aberto necessitam de ablações mais detalhadas de suas estratégias de treinamento. 2) Os dados de pré-treinamento em trabalhos de código aberto são pouco explorados, com conjuntos de dados adicionados empiricamente, tornando o processo complicado. 3) O ajuste fino frequentemente se concentra em adicionar conjuntos de dados, resultando em retornos decrescentes. Para abordar essas questões, propomos as seguintes contribuições: 1) Treinamos um modelo de linha de base robusto utilizando os avanços mais recentes em modelos de visão e linguagem, introduzindo melhorias eficazes e conduzindo ablação e validação abrangentes para cada técnica. 2) Inspirados em trabalhos recentes sobre grandes modelos de linguagem, filtramos os dados de pré-treinamento usando perplexidade, selecionando os dados com menor perplexidade para treinamento. Essa abordagem nos permitiu treinar em um conjunto de dados curado de 1M, alcançando um desempenho competitivo. 3) Durante o ajuste de instrução visual, utilizamos um "modelo de sopa" em diferentes conjuntos de dados, quando adicionar mais conjuntos de dados resultava em melhorias marginais. Essas inovações resultaram em um modelo de 9B parâmetros que tem um desempenho competitivo com os modelos de ponta. Nossas estratégias são eficientes e leves, tornando-as facilmente adotáveis pela comunidade.
English
In recent years, vision-language models have made significant strides, excelling in tasks like optical character recognition and geometric problem-solving. However, several critical issues remain: 1) Proprietary models often lack transparency about their architectures, while open-source models need more detailed ablations of their training strategies. 2) Pre-training data in open-source works is under-explored, with datasets added empirically, making the process cumbersome. 3) Fine-tuning often focuses on adding datasets, leading to diminishing returns. To address these issues, we propose the following contributions: 1) We trained a robust baseline model using the latest advancements in vision-language models, introducing effective improvements and conducting comprehensive ablation and validation for each technique. 2) Inspired by recent work on large language models, we filtered pre-training data using perplexity, selecting the lowest perplexity data for training. This approach allowed us to train on a curated 1M dataset, achieving competitive performance. 3) During visual instruction tuning, we used model soup on different datasets when adding more datasets yielded marginal improvements. These innovations resulted in a 9B parameter model that performs competitively with state-of-the-art models. Our strategies are efficient and lightweight, making them easily adoptable by the community.

Summary

AI-Generated Summary

PDF256November 16, 2024