MegaPares: Síntesis Masiva de Datos para la Recuperación Multimodal Universal

Resumen

A pesar de la creciente demanda de recuperación multimodal, el progreso en este campo sigue severamente limitado por la falta de datos de entrenamiento. En este documento, presentamos MegaPairs, un novedoso método de síntesis de datos que aprovecha los modelos de visión y lenguaje (VLMs) y las imágenes de dominio abierto, junto con un extenso conjunto de datos sintéticos generado a partir de este método. Nuestro análisis empírico muestra que MegaPairs genera datos de alta calidad, lo que permite que el recuperador multimodal supere significativamente al modelo base entrenado con 70 veces más datos de conjuntos de datos existentes. Además, dado que MegaPairs se basa únicamente en corpora de imágenes generales y VLMs de código abierto, puede escalarse fácilmente, permitiendo mejoras continuas en el rendimiento de recuperación. En esta etapa, produjimos más de 26 millones de instancias de entrenamiento y entrenamos varios modelos de diferentes tamaños utilizando estos datos. Estos nuevos modelos logran un rendimiento de vanguardia en cero-shot en 4 populares bancos de pruebas de recuperación de imágenes compuestas (CIR) y el rendimiento general más alto en los 36 conjuntos de datos proporcionados por MMEB. También muestran mejoras de rendimiento notables con un ajuste adicional posterior. Nuestro conjunto de datos producido, los modelos bien entrenados y la tubería de síntesis de datos estarán disponibles públicamente para facilitar el desarrollo futuro de este campo.

English

Despite the rapidly growing demand for multimodal retrieval, progress in this field remains severely constrained by a lack of training data. In this paper, we introduce MegaPairs, a novel data synthesis method that leverages vision language models (VLMs) and open-domain images, together with a massive synthetic dataset generated from this method. Our empirical analysis shows that MegaPairs generates high-quality data, enabling the multimodal retriever to significantly outperform the baseline model trained on 70times more data from existing datasets. Moreover, since MegaPairs solely relies on general image corpora and open-source VLMs, it can be easily scaled up, enabling continuous improvements in retrieval performance. In this stage, we produced more than 26 million training instances and trained several models of varying sizes using this data. These new models achieve state-of-the-art zero-shot performance across 4 popular composed image retrieval (CIR) benchmarks and the highest overall performance on the 36 datasets provided by MMEB. They also demonstrate notable performance improvements with additional downstream fine-tuning. Our produced dataset, well-trained models, and data synthesis pipeline will be made publicly available to facilitate the future development of this field.

MegaPares: Síntesis Masiva de Datos para la Recuperación Multimodal Universal

MegaPairs: Massive Data Synthesis For Universal Multimodal Retrieval

Resumen

Support