ChatPaper.aiChatPaper

PUNTOS: Mejorando tu Modelo de Lenguaje Visual con Estrategias Económicas

POINTS: Improving Your Vision-language Model with Affordable Strategies

September 7, 2024
Autores: Yuan Liu, Zhongyin Zhao, Ziyuan Zhuang, Le Tian, Xiao Zhou, Jie Zhou
cs.AI

Resumen

En los últimos años, los modelos de visión y lenguaje han avanzado significativamente, destacándose en tareas como el reconocimiento óptico de caracteres y la resolución de problemas geométricos. Sin embargo, persisten varias cuestiones críticas: 1) Los modelos propietarios a menudo carecen de transparencia sobre sus arquitecturas, mientras que los modelos de código abierto necesitan una mayor desglose detallado de sus estrategias de entrenamiento. 2) Los datos de pre-entrenamiento en trabajos de código abierto están poco explorados, con conjuntos de datos añadidos empíricamente, lo que hace que el proceso sea engorroso. 3) El ajuste fino a menudo se centra en añadir conjuntos de datos, lo que conduce a rendimientos decrecientes. Para abordar estos problemas, proponemos las siguientes contribuciones: 1) Entrenamos un modelo base robusto utilizando los últimos avances en modelos de visión y lenguaje, introduciendo mejoras efectivas y realizando un desglose y validación exhaustivos para cada técnica. 2) Inspirados en trabajos recientes sobre grandes modelos de lenguaje, filtramos los datos de pre-entrenamiento utilizando la perplejidad, seleccionando los datos con la perplejidad más baja para el entrenamiento. Este enfoque nos permitió entrenar en un conjunto de datos curado de 1M, logrando un rendimiento competitivo. 3) Durante el ajuste de instrucciones visuales, utilizamos un modelo compuesto en diferentes conjuntos de datos cuando añadir más conjuntos de datos producía mejoras marginales. Estas innovaciones resultaron en un modelo de 9B parámetros que compite con los modelos de última generación. Nuestras estrategias son eficientes y livianas, lo que las hace fácilmente adoptables por la comunidad.
English
In recent years, vision-language models have made significant strides, excelling in tasks like optical character recognition and geometric problem-solving. However, several critical issues remain: 1) Proprietary models often lack transparency about their architectures, while open-source models need more detailed ablations of their training strategies. 2) Pre-training data in open-source works is under-explored, with datasets added empirically, making the process cumbersome. 3) Fine-tuning often focuses on adding datasets, leading to diminishing returns. To address these issues, we propose the following contributions: 1) We trained a robust baseline model using the latest advancements in vision-language models, introducing effective improvements and conducting comprehensive ablation and validation for each technique. 2) Inspired by recent work on large language models, we filtered pre-training data using perplexity, selecting the lowest perplexity data for training. This approach allowed us to train on a curated 1M dataset, achieving competitive performance. 3) During visual instruction tuning, we used model soup on different datasets when adding more datasets yielded marginal improvements. These innovations resulted in a 9B parameter model that performs competitively with state-of-the-art models. Our strategies are efficient and lightweight, making them easily adoptable by the community.

Summary

AI-Generated Summary

PDF256November 16, 2024