ChatPaper.aiChatPaper

Infinity-MM: Escalando o Desempenho Multimodal com Dados de Instrução em Grande Escala e Alta Qualidade

Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data

October 24, 2024
Autores: Shuhao Gu, Jialing Zhang, Siyuan Zhou, Kevin Yu, Zhaohu Xing, Liangdong Wang, Zhou Cao, Jintao Jia, Zhuoyi Zhang, Yixuan Wang, Zhenchong Hu, Bo-Wen Zhang, Jijie Li, Dong Liang, Yingli Zhao, Yulong Ao, Yaoqi Liu, Fangxiang Feng, Guang Liu
cs.AI

Resumo

Os Modelos Visão-Linguagem (VLMs) têm avançado significativamente recentemente, porém a escala limitada e a qualidade dos dados de instrução de código aberto prejudicam seu desempenho em comparação com modelos de código fechado. Neste trabalho, abordamos essa limitação ao introduzir o Infinity-MM, um conjunto de dados de instrução multimodal em larga escala com 40 milhões de amostras, aprimorado por meio de um rigoroso filtro de qualidade e deduplicação. Também propomos um método de geração de instruções sintéticas com base em VLMs de código aberto, utilizando anotações detalhadas de imagem e geração diversificada de perguntas. Com esses dados, treinamos um VLM de 2 bilhões de parâmetros, o Aquila-VL-2B, alcançando um desempenho de estado-da-arte para modelos de escala similar. Isso demonstra que expandir os dados de instrução e gerar dados sintéticos pode melhorar significativamente o desempenho de modelos de código aberto.
English
Vision-Language Models (VLMs) have recently made significant progress, but the limited scale and quality of open-source instruction data hinder their performance compared to closed-source models. In this work, we address this limitation by introducing Infinity-MM, a large-scale multimodal instruction dataset with 40 million samples, enhanced through rigorous quality filtering and deduplication. We also propose a synthetic instruction generation method based on open-source VLMs, using detailed image annotations and diverse question generation. Using this data, we trained a 2-billion-parameter VLM, Aquila-VL-2B, achieving state-of-the-art (SOTA) performance for models of similar scale. This demonstrates that expanding instruction data and generating synthetic data can significantly improve the performance of open-source models.

Summary

AI-Generated Summary

PDF202November 16, 2024