Пересмотр данных по подписям к изображениям большого масштаба в предварительном обучении мультимодальных базовых моделей.Revisit Large-Scale Image-Caption Data in Pre-training Multimodal
Foundation Models
Недавние достижения в мультимодельных моделях подчеркивают ценность переписанных подписей для улучшения производительности, однако остаются ключевые проблемы. Например, хотя синтетические подписи часто обеспечивают более высокое качество и соответствие изображения и текста, неясно, могут ли они полностью заменить AltTexts: роль синтетических подписей и их взаимодействие с оригинальными AltTexts, полученными при обходе веб-страниц, в процессе предварительного обучения до сих пор плохо понимаются. Более того, различные модели мультимодальных основ имеют уникальные предпочтения к определенным форматам подписей, однако усилия по идентификации оптимальных подписей для каждой модели остаются ограниченными. В данной работе мы предлагаем новый, управляемый и масштабируемый конвейер подписей, разработанный для генерации разнообразных форматов подписей, адаптированных к различным моделям мультимодальности. Исследуя короткие синтетические подписи (SSC) в качестве кейс-стади и плотные синтетические подписи (DSC+) систематически исследуем их влияние и взаимодействие с AltTexts в различных моделях, таких как CLIP, мультимодальные LLM и модели диффузии. Наши результаты показывают, что гибридный подход, который сохраняет как синтетические подписи, так и AltTexts, может превзойти использование только синтетических подписей, улучшая как соответствие, так и производительность, причем каждая модель демонстрирует предпочтения к определенным форматам подписей. Этот всесторонний анализ предоставляет ценные идеи для оптимизации стратегий подписывания, тем самым продвигая предварительное обучение моделей мультимодальности.