Medindo o Progresso na Compreensão Detalhada de Visão e Linguagem
Measuring Progress in Fine-grained Vision-and-Language Understanding
May 12, 2023
Autores: Emanuele Bugliarello, Laurent Sartran, Aishwarya Agrawal, Lisa Anne Hendricks, Aida Nematzadeh
cs.AI
Resumo
Embora o pré-treinamento em grandes conjuntos de dados de imagem-texto da web tenha impulsionado avanços rápidos em muitas tarefas de visão e linguagem (V&L), trabalhos recentes demonstraram que modelos pré-treinados carecem de compreensão "detalhada", como a capacidade de reconhecer relações, verbos e números em imagens. Isso resultou em um interesse crescente na comunidade para desenvolver novos benchmarks ou modelos para tais capacidades. Para entender e quantificar melhor o progresso nessa direção, investigamos quatro modelos competitivos de V&L em quatro benchmarks detalhados. Por meio de nossa análise, descobrimos que o X-VLM (Zeng et al., 2022) supera consistentemente outras abordagens de referência, e que inovações na modelagem podem impactar o desempenho mais do que a escalabilidade de dados da web, que, por vezes, até degrada o desempenho. Através de uma investigação mais aprofundada do X-VLM, destacamos a importância tanto de novas funções de perda quanto de fontes de dados ricas para o aprendizado de habilidades detalhadas. Por fim, examinamos a dinâmica de treinamento e descobrimos que, para algumas tarefas, o desempenho atinge o pico no início do treinamento ou flutua significativamente, sem nunca convergir.
English
While pretraining on large-scale image-text data from the Web has facilitated
rapid progress on many vision-and-language (V&L) tasks, recent work has
demonstrated that pretrained models lack "fine-grained" understanding, such as
the ability to recognise relationships, verbs, and numbers in images. This has
resulted in an increased interest in the community to either develop new
benchmarks or models for such capabilities. To better understand and quantify
progress in this direction, we investigate four competitive V&L models on four
fine-grained benchmarks. Through our analysis, we find that X-VLM (Zeng et al.,
2022) consistently outperforms other baselines, and that modelling innovations
can impact performance more than scaling Web data, which even degrades
performance sometimes. Through a deeper investigation of X-VLM, we highlight
the importance of both novel losses and rich data sources for learning
fine-grained skills. Finally, we inspect training dynamics, and discover that
for some tasks, performance peaks early in training or significantly
fluctuates, never converging.