Infinity-MM: Escalando el Rendimiento Multimodal con Datos de Instrucción a Gran Escala y de Alta Calidad
Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data
October 24, 2024
Autores: Shuhao Gu, Jialing Zhang, Siyuan Zhou, Kevin Yu, Zhaohu Xing, Liangdong Wang, Zhou Cao, Jintao Jia, Zhuoyi Zhang, Yixuan Wang, Zhenchong Hu, Bo-Wen Zhang, Jijie Li, Dong Liang, Yingli Zhao, Yulong Ao, Yaoqi Liu, Fangxiang Feng, Guang Liu
cs.AI
Resumen
Los Modelos Visión-Lenguaje (VLMs) han avanzado significativamente recientemente, pero la escala limitada y la calidad de los datos de instrucción de código abierto obstaculizan su rendimiento en comparación con los modelos de código cerrado. En este trabajo, abordamos esta limitación presentando Infinity-MM, un conjunto de datos de instrucciones multimodal a gran escala con 40 millones de muestras, mejorado a través de un riguroso filtrado de calidad y deduplicación. También proponemos un método de generación de instrucciones sintéticas basado en VLMs de código abierto, utilizando anotaciones detalladas de imágenes y una generación diversa de preguntas. Utilizando estos datos, entrenamos un VLM de 2 mil millones de parámetros, Aquila-VL-2B, logrando un rendimiento de última generación (SOTA) para modelos de escala similar. Esto demuestra que ampliar los datos de instrucción y generar datos sintéticos puede mejorar significativamente el rendimiento de los modelos de código abierto.
English
Vision-Language Models (VLMs) have recently made significant progress, but
the limited scale and quality of open-source instruction data hinder their
performance compared to closed-source models. In this work, we address this
limitation by introducing Infinity-MM, a large-scale multimodal instruction
dataset with 40 million samples, enhanced through rigorous quality filtering
and deduplication. We also propose a synthetic instruction generation method
based on open-source VLMs, using detailed image annotations and diverse
question generation. Using this data, we trained a 2-billion-parameter VLM,
Aquila-VL-2B, achieving state-of-the-art (SOTA) performance for models of
similar scale. This demonstrates that expanding instruction data and generating
synthetic data can significantly improve the performance of open-source models.Summary
AI-Generated Summary