CapsFusion: Repensando Dados de Imagem-Texto em Escala
CapsFusion: Rethinking Image-Text Data at Scale
October 31, 2023
Autores: Qiying Yu, Quan Sun, Xiaosong Zhang, Yufeng Cui, Fan Zhang, Xinlong Wang, Jingjing Liu
cs.AI
Resumo
Modelos multimodais de grande escala demonstram uma capacidade generalista notável para realizar diversas tarefas multimodais de maneira zero-shot. Pares de imagem-texto em grande escala baseados na web contribuem fundamentalmente para esse sucesso, mas sofrem com ruído excessivo. Estudos recentes utilizam legendas alternativas sintetizadas por modelos de geração de legendas e alcançaram desempenho notável em benchmarks. No entanto, nossos experimentos revelam problemas significativos de Deficiência de Escalabilidade e Perda de Conhecimento Mundial em modelos treinados com legendas sintéticas, que foram amplamente obscurecidos por seu sucesso inicial em benchmarks. Após um exame mais detalhado, identificamos a causa raiz como a estrutura de linguagem excessivamente simplificada e a falta de detalhes de conhecimento nas legendas sintéticas existentes. Para fornecer dados de pré-treinamento multimodal de maior qualidade e mais escaláveis, propomos o CapsFusion, uma estrutura avançada que aproveita modelos de linguagem de grande escala para consolidar e refinar informações tanto de pares de imagem-texto baseados na web quanto de legendas sintéticas. Experimentos extensivos mostram que as legendas do CapsFusion exibem uma superioridade notável em todos os aspectos em relação às legendas existentes em termos de desempenho do modelo (por exemplo, melhorias de 18,8 e 18,3 na pontuação CIDEr no COCO e NoCaps), eficiência de amostragem (exigindo 11 a 16 vezes menos computação do que as baselines), profundidade do conhecimento mundial e escalabilidade. Essas vantagens de eficácia, eficiência e escalabilidade posicionam o CapsFusion como um candidato promissor para o futuro escalonamento do treinamento de LMMs.
English
Large multimodal models demonstrate remarkable generalist ability to perform
diverse multimodal tasks in a zero-shot manner. Large-scale web-based
image-text pairs contribute fundamentally to this success, but suffer from
excessive noise. Recent studies use alternative captions synthesized by
captioning models and have achieved notable benchmark performance. However, our
experiments reveal significant Scalability Deficiency and World Knowledge Loss
issues in models trained with synthetic captions, which have been largely
obscured by their initial benchmark success. Upon closer examination, we
identify the root cause as the overly-simplified language structure and lack of
knowledge details in existing synthetic captions. To provide higher-quality and
more scalable multimodal pretraining data, we propose CapsFusion, an advanced
framework that leverages large language models to consolidate and refine
information from both web-based image-text pairs and synthetic captions.
Extensive experiments show that CapsFusion captions exhibit remarkable
all-round superiority over existing captions in terms of model performance
(e.g., 18.8 and 18.3 improvements in CIDEr score on COCO and NoCaps), sample
efficiency (requiring 11-16 times less computation than baselines), world
knowledge depth, and scalability. These effectiveness, efficiency and
scalability advantages position CapsFusion as a promising candidate for future
scaling of LMM training.