ChatPaper.aiChatPaper

CapsFusion: Repensando los datos de imagen-texto a gran escala

CapsFusion: Rethinking Image-Text Data at Scale

October 31, 2023
Autores: Qiying Yu, Quan Sun, Xiaosong Zhang, Yufeng Cui, Fan Zhang, Xinlong Wang, Jingjing Liu
cs.AI

Resumen

Los modelos multimodales de gran escala demuestran una notable capacidad generalista para realizar diversas tareas multimodales de manera zero-shot. Los pares de imágenes y texto a gran escala basados en la web contribuyen fundamentalmente a este éxito, pero adolecen de un exceso de ruido. Estudios recientes utilizan subtítulos alternativos sintetizados por modelos de generación de subtítulos y han logrado un rendimiento notable en benchmarks. Sin embargo, nuestros experimentos revelan problemas significativos de Deficiencia de Escalabilidad y Pérdida de Conocimiento del Mundo en modelos entrenados con subtítulos sintéticos, los cuales han sido en gran medida opacados por su éxito inicial en benchmarks. Tras un examen más detallado, identificamos la causa raíz como la estructura lingüística excesivamente simplificada y la falta de detalles de conocimiento en los subtítulos sintéticos existentes. Para proporcionar datos de preentrenamiento multimodal de mayor calidad y más escalables, proponemos CapsFusion, un marco avanzado que aprovecha los modelos de lenguaje de gran escala para consolidar y refinar la información tanto de los pares de imágenes y texto basados en la web como de los subtítulos sintéticos. Experimentos extensivos muestran que los subtítulos de CapsFusion exhiben una notable superioridad integral sobre los subtítulos existentes en términos de rendimiento del modelo (por ejemplo, mejoras de 18.8 y 18.3 en la puntuación CIDEr en COCO y NoCaps), eficiencia de muestreo (requiriendo 11-16 veces menos computación que las líneas base), profundidad del conocimiento del mundo y escalabilidad. Estas ventajas en efectividad, eficiencia y escalabilidad posicionan a CapsFusion como un candidato prometedor para la futura escalabilidad del entrenamiento de modelos multimodales de gran escala (LMM).
English
Large multimodal models demonstrate remarkable generalist ability to perform diverse multimodal tasks in a zero-shot manner. Large-scale web-based image-text pairs contribute fundamentally to this success, but suffer from excessive noise. Recent studies use alternative captions synthesized by captioning models and have achieved notable benchmark performance. However, our experiments reveal significant Scalability Deficiency and World Knowledge Loss issues in models trained with synthetic captions, which have been largely obscured by their initial benchmark success. Upon closer examination, we identify the root cause as the overly-simplified language structure and lack of knowledge details in existing synthetic captions. To provide higher-quality and more scalable multimodal pretraining data, we propose CapsFusion, an advanced framework that leverages large language models to consolidate and refine information from both web-based image-text pairs and synthetic captions. Extensive experiments show that CapsFusion captions exhibit remarkable all-round superiority over existing captions in terms of model performance (e.g., 18.8 and 18.3 improvements in CIDEr score on COCO and NoCaps), sample efficiency (requiring 11-16 times less computation than baselines), world knowledge depth, and scalability. These effectiveness, efficiency and scalability advantages position CapsFusion as a promising candidate for future scaling of LMM training.
PDF272December 15, 2024