ChatPaper.aiChatPaper

CapsFusion: Переосмысление масштабных данных "изображение-текст"

CapsFusion: Rethinking Image-Text Data at Scale

October 31, 2023
Авторы: Qiying Yu, Quan Sun, Xiaosong Zhang, Yufeng Cui, Fan Zhang, Xinlong Wang, Jingjing Liu
cs.AI

Аннотация

Крупные мультимодальные модели демонстрируют выдающуюся универсальную способность выполнять разнообразные мультимодальные задачи в режиме zero-shot. Крупномасштабные пары изображение-текст, собранные из интернета, вносят фундаментальный вклад в этот успех, но страдают от чрезмерного уровня шума. Недавние исследования используют альтернативные описания, синтезированные моделями генерации подписей, и достигли заметных результатов на эталонных тестах. Однако наши эксперименты выявили значительные проблемы с масштабируемостью и потерей знаний о мире в моделях, обученных на синтетических подписях, которые оставались в значительной степени незамеченными из-за их первоначального успеха на тестах. При более детальном анализе мы определили корневую причину как чрезмерно упрощённую структуру языка и отсутствие деталей знаний в существующих синтетических подписях. Для предоставления более качественных и масштабируемых данных для мультимодального предобучения мы предлагаем CapsFusion — продвинутую структуру, которая использует крупные языковые модели для консолидации и уточнения информации как из веб-пар изображение-текст, так и из синтетических подписей. Многочисленные эксперименты показывают, что подписи CapsFusion демонстрируют всестороннее превосходство над существующими подписями с точки зрения производительности модели (например, улучшение на 18,8 и 18,3 балла по метрике CIDEr на COCO и NoCaps), эффективности использования данных (требуя в 11–16 раз меньше вычислений, чем базовые методы), глубины знаний о мире и масштабируемости. Эти преимущества в эффективности, производительности и масштабируемости делают CapsFusion перспективным кандидатом для будущего масштабирования обучения крупных мультимодальных моделей.
English
Large multimodal models demonstrate remarkable generalist ability to perform diverse multimodal tasks in a zero-shot manner. Large-scale web-based image-text pairs contribute fundamentally to this success, but suffer from excessive noise. Recent studies use alternative captions synthesized by captioning models and have achieved notable benchmark performance. However, our experiments reveal significant Scalability Deficiency and World Knowledge Loss issues in models trained with synthetic captions, which have been largely obscured by their initial benchmark success. Upon closer examination, we identify the root cause as the overly-simplified language structure and lack of knowledge details in existing synthetic captions. To provide higher-quality and more scalable multimodal pretraining data, we propose CapsFusion, an advanced framework that leverages large language models to consolidate and refine information from both web-based image-text pairs and synthetic captions. Extensive experiments show that CapsFusion captions exhibit remarkable all-round superiority over existing captions in terms of model performance (e.g., 18.8 and 18.3 improvements in CIDEr score on COCO and NoCaps), sample efficiency (requiring 11-16 times less computation than baselines), world knowledge depth, and scalability. These effectiveness, efficiency and scalability advantages position CapsFusion as a promising candidate for future scaling of LMM training.
PDF272December 15, 2024