ChatPaper.aiChatPaper

Пересмотр данных по подписям к изображениям большого масштаба в предварительном обучении мультимодальных базовых моделей.

Revisit Large-Scale Image-Caption Data in Pre-training Multimodal Foundation Models

October 3, 2024
Авторы: Zhengfeng Lai, Vasileios Saveris, Chen Chen, Hong-You Chen, Haotian Zhang, Bowen Zhang, Juan Lao Tebar, Wenze Hu, Zhe Gan, Peter Grasch, Meng Cao, Yinfei Yang
cs.AI

Аннотация

Недавние достижения в мультимодельных моделях подчеркивают ценность переписанных подписей для улучшения производительности, однако остаются ключевые проблемы. Например, хотя синтетические подписи часто обеспечивают более высокое качество и соответствие изображения и текста, неясно, могут ли они полностью заменить AltTexts: роль синтетических подписей и их взаимодействие с оригинальными AltTexts, полученными при обходе веб-страниц, в процессе предварительного обучения до сих пор плохо понимаются. Более того, различные модели мультимодальных основ имеют уникальные предпочтения к определенным форматам подписей, однако усилия по идентификации оптимальных подписей для каждой модели остаются ограниченными. В данной работе мы предлагаем новый, управляемый и масштабируемый конвейер подписей, разработанный для генерации разнообразных форматов подписей, адаптированных к различным моделям мультимодальности. Исследуя короткие синтетические подписи (SSC) в качестве кейс-стади и плотные синтетические подписи (DSC+) систематически исследуем их влияние и взаимодействие с AltTexts в различных моделях, таких как CLIP, мультимодальные LLM и модели диффузии. Наши результаты показывают, что гибридный подход, который сохраняет как синтетические подписи, так и AltTexts, может превзойти использование только синтетических подписей, улучшая как соответствие, так и производительность, причем каждая модель демонстрирует предпочтения к определенным форматам подписей. Этот всесторонний анализ предоставляет ценные идеи для оптимизации стратегий подписывания, тем самым продвигая предварительное обучение моделей мультимодальности.
English
Recent advancements in multimodal models highlight the value of rewritten captions for improving performance, yet key challenges remain. For example, while synthetic captions often provide superior quality and image-text alignment, it is not clear whether they can fully replace AltTexts: the role of synthetic captions and their interaction with original web-crawled AltTexts in pre-training is still not well understood. Moreover, different multimodal foundation models may have unique preferences for specific caption formats, but efforts to identify the optimal captions for each model remain limited. In this work, we propose a novel, controllable, and scalable captioning pipeline designed to generate diverse caption formats tailored to various multimodal models. By examining Short Synthetic Captions (SSC) towards Dense Synthetic Captions (DSC+) as case studies, we systematically explore their effects and interactions with AltTexts across models such as CLIP, multimodal LLMs, and diffusion models. Our findings reveal that a hybrid approach that keeps both synthetic captions and AltTexts can outperform the use of synthetic captions alone, improving both alignment and performance, with each model demonstrating preferences for particular caption formats. This comprehensive analysis provides valuable insights into optimizing captioning strategies, thereby advancing the pre-training of multimodal foundation models.

Summary

AI-Generated Summary

PDF552November 16, 2024