Revisión de Datos de Subtítulos de Imágenes a Gran Escala en el Pre-entrenamiento de Modelos Fundamentales Multimodales
Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models
October 3, 2024
Autores: Zhengfeng Lai, Vasileios Saveris, Chen Chen, Hong-You Chen, Haotian Zhang, Bowen Zhang, Juan Lao Tebar, Wenze Hu, Zhe Gan, Peter Grasch, Meng Cao, Yinfei Yang
cs.AI
Resumen
Los avances recientes en modelos multimodales resaltan el valor de las leyendas reescritas para mejorar el rendimiento, sin embargo, aún existen desafíos clave. Por ejemplo, si bien las leyendas sintéticas a menudo ofrecen una calidad superior y una alineación imagen-texto, no está claro si pueden reemplazar completamente los Textos Alternativos: el papel de las leyendas sintéticas y su interacción con los Textos Alternativos originales obtenidos de la web en la pre-entrenamiento aún no se comprende bien. Además, diferentes modelos fundamentales multimodales pueden tener preferencias únicas por formatos de leyendas específicas, pero los esfuerzos para identificar las leyendas óptimas para cada modelo siguen siendo limitados. En este trabajo, proponemos un novedoso, controlable y escalable proceso de generación de leyendas diseñado para producir diversos formatos de leyendas adaptados a varios modelos multimodales. Al examinar las Leyendas Sintéticas Cortas (SSC) hacia las Leyendas Sintéticas Densas (DSC+) como estudios de caso, exploramos sistemáticamente sus efectos e interacciones con los Textos Alternativos a través de modelos como CLIP, LLMs multimodales y modelos de difusión. Nuestros hallazgos revelan que un enfoque híbrido que incluye tanto leyendas sintéticas como Textos Alternativos puede superar el uso de leyendas sintéticas solamente, mejorando tanto la alineación como el rendimiento, con cada modelo demostrando preferencias por formatos de leyendas particulares. Este análisis exhaustivo proporciona información valiosa para optimizar estrategias de subtitulado, avanzando así en el pre-entrenamiento de modelos fundamentales multimodales.
English
Recent advancements in multimodal models highlight the value of rewritten
captions for improving performance, yet key challenges remain. For example,
while synthetic captions often provide superior quality and image-text
alignment, it is not clear whether they can fully replace AltTexts: the role of
synthetic captions and their interaction with original web-crawled AltTexts in
pre-training is still not well understood. Moreover, different multimodal
foundation models may have unique preferences for specific caption formats, but
efforts to identify the optimal captions for each model remain limited. In this
work, we propose a novel, controllable, and scalable captioning pipeline
designed to generate diverse caption formats tailored to various multimodal
models. By examining Short Synthetic Captions (SSC) towards Dense Synthetic
Captions (DSC+) as case studies, we systematically explore their effects and
interactions with AltTexts across models such as CLIP, multimodal LLMs, and
diffusion models. Our findings reveal that a hybrid approach that keeps both
synthetic captions and AltTexts can outperform the use of synthetic captions
alone, improving both alignment and performance, with each model demonstrating
preferences for particular caption formats. This comprehensive analysis
provides valuable insights into optimizing captioning strategies, thereby
advancing the pre-training of multimodal foundation models.Summary
AI-Generated Summary