Infinity-MM: Масштабирование мультимодальной производительности с большим масштабом и высококачественными данными инструкций

Аннотация

Модели видео-языка (VLM) недавно сделали значительный прогресс, однако ограниченный масштаб и качество открытых данных по инструкциям сдерживают их производительность по сравнению с моделями закрытого источника. В данной работе мы решаем эту проблему, представляя Infinity-MM, крупномасштабный мультимодальный набор данных по инструкциям с 40 миллионами образцов, улучшенный благодаря тщательной фильтрации качества и удалению дубликатов. Мы также предлагаем метод генерации синтетических инструкций на основе открытых моделей VLM, используя детальные аннотации изображений и разнообразную генерацию вопросов. С использованием этих данных мы обучили модель VLM с 2 миллиардами параметров, Aquila-VL-2B, достигнув передовой производительности для моделей схожего масштаба. Это демонстрирует, что расширение данных по инструкциям и генерация синтетических данных могут значительно улучшить производительность моделей открытого источника.

English

Vision-Language Models (VLMs) have recently made significant progress, but the limited scale and quality of open-source instruction data hinder their performance compared to closed-source models. In this work, we address this limitation by introducing Infinity-MM, a large-scale multimodal instruction dataset with 40 million samples, enhanced through rigorous quality filtering and deduplication. We also propose a synthetic instruction generation method based on open-source VLMs, using detailed image annotations and diverse question generation. Using this data, we trained a 2-billion-parameter VLM, Aquila-VL-2B, achieving state-of-the-art (SOTA) performance for models of similar scale. This demonstrates that expanding instruction data and generating synthetic data can significantly improve the performance of open-source models.