Revisão de Dados de Legendas de Imagens em Grande Escala no Pré-treinamento de Modelos Multimodais Fundamentais
Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models
October 3, 2024
Autores: Zhengfeng Lai, Vasileios Saveris, Chen Chen, Hong-You Chen, Haotian Zhang, Bowen Zhang, Juan Lao Tebar, Wenze Hu, Zhe Gan, Peter Grasch, Meng Cao, Yinfei Yang
cs.AI
Resumo
Os avanços recentes em modelos multimodais destacam o valor de legendas reescritas para melhorar o desempenho, no entanto, ainda existem desafios-chave. Por exemplo, embora legendas sintéticas frequentemente ofereçam qualidade superior e alinhamento entre imagem e texto, não está claro se elas podem substituir completamente os AltTexts: o papel das legendas sintéticas e sua interação com os AltTexts originais obtidos na web em pré-treinamento ainda não são bem compreendidos. Além disso, diferentes modelos fundamentais multimodais podem ter preferências únicas por formatos de legendas específicos, mas os esforços para identificar as legendas ideais para cada modelo ainda são limitados. Neste trabalho, propomos um pipeline de legendagem inovador, controlável e escalável, projetado para gerar diversos formatos de legendas adaptados a vários modelos multimodais. Ao examinar Legendas Sintéticas Curtas (SSC) em direção a Legendas Sintéticas Densas (DSC+) como estudos de caso, exploramos sistematicamente seus efeitos e interações com AltTexts em modelos como CLIP, LLMs multimodais e modelos de difusão. Nossas descobertas revelam que uma abordagem híbrida que mantém tanto legendas sintéticas quanto AltTexts pode superar o uso de legendas sintéticas sozinhas, melhorando tanto o alinhamento quanto o desempenho, com cada modelo demonstrando preferências por formatos de legendas específicos. Esta análise abrangente fornece insights valiosos para otimizar estratégias de legendagem, avançando assim o pré-treinamento de modelos fundamentais multimodais.
English
Recent advancements in multimodal models highlight the value of rewritten
captions for improving performance, yet key challenges remain. For example,
while synthetic captions often provide superior quality and image-text
alignment, it is not clear whether they can fully replace AltTexts: the role of
synthetic captions and their interaction with original web-crawled AltTexts in
pre-training is still not well understood. Moreover, different multimodal
foundation models may have unique preferences for specific caption formats, but
efforts to identify the optimal captions for each model remain limited. In this
work, we propose a novel, controllable, and scalable captioning pipeline
designed to generate diverse caption formats tailored to various multimodal
models. By examining Short Synthetic Captions (SSC) towards Dense Synthetic
Captions (DSC+) as case studies, we systematically explore their effects and
interactions with AltTexts across models such as CLIP, multimodal LLMs, and
diffusion models. Our findings reveal that a hybrid approach that keeps both
synthetic captions and AltTexts can outperform the use of synthetic captions
alone, improving both alignment and performance, with each model demonstrating
preferences for particular caption formats. This comprehensive analysis
provides valuable insights into optimizing captioning strategies, thereby
advancing the pre-training of multimodal foundation models.Summary
AI-Generated Summary