MegaPares: Síntesis Masiva de Datos para la Recuperación Multimodal Universal
MegaPairs: Massive Data Synthesis For Universal Multimodal Retrieval
December 19, 2024
Autores: Junjie Zhou, Zheng Liu, Ze Liu, Shitao Xiao, Yueze Wang, Bo Zhao, Chen Jason Zhang, Defu Lian, Yongping Xiong
cs.AI
Resumen
A pesar de la creciente demanda de recuperación multimodal, el progreso en este campo sigue severamente limitado por la falta de datos de entrenamiento. En este documento, presentamos MegaPairs, un novedoso método de síntesis de datos que aprovecha los modelos de visión y lenguaje (VLMs) y las imágenes de dominio abierto, junto con un extenso conjunto de datos sintéticos generado a partir de este método. Nuestro análisis empírico muestra que MegaPairs genera datos de alta calidad, lo que permite que el recuperador multimodal supere significativamente al modelo base entrenado con 70 veces más datos de conjuntos de datos existentes. Además, dado que MegaPairs se basa únicamente en corpora de imágenes generales y VLMs de código abierto, puede escalarse fácilmente, permitiendo mejoras continuas en el rendimiento de recuperación. En esta etapa, produjimos más de 26 millones de instancias de entrenamiento y entrenamos varios modelos de diferentes tamaños utilizando estos datos. Estos nuevos modelos logran un rendimiento de vanguardia en cero-shot en 4 populares bancos de pruebas de recuperación de imágenes compuestas (CIR) y el rendimiento general más alto en los 36 conjuntos de datos proporcionados por MMEB. También muestran mejoras de rendimiento notables con un ajuste adicional posterior. Nuestro conjunto de datos producido, los modelos bien entrenados y la tubería de síntesis de datos estarán disponibles públicamente para facilitar el desarrollo futuro de este campo.
English
Despite the rapidly growing demand for multimodal retrieval, progress in this
field remains severely constrained by a lack of training data. In this paper,
we introduce MegaPairs, a novel data synthesis method that leverages vision
language models (VLMs) and open-domain images, together with a massive
synthetic dataset generated from this method. Our empirical analysis shows that
MegaPairs generates high-quality data, enabling the multimodal retriever to
significantly outperform the baseline model trained on 70times more data
from existing datasets. Moreover, since MegaPairs solely relies on general
image corpora and open-source VLMs, it can be easily scaled up, enabling
continuous improvements in retrieval performance. In this stage, we produced
more than 26 million training instances and trained several models of varying
sizes using this data. These new models achieve state-of-the-art zero-shot
performance across 4 popular composed image retrieval (CIR) benchmarks and the
highest overall performance on the 36 datasets provided by MMEB. They also
demonstrate notable performance improvements with additional downstream
fine-tuning. Our produced dataset, well-trained models, and data synthesis
pipeline will be made publicly available to facilitate the future development
of this field.Summary
AI-Generated Summary