Quão Bem o GPT-4V(ision) se Adapta a Mudanças na Distribuição? Uma Investigação Preliminar
How Well Does GPT-4V(ision) Adapt to Distribution Shifts? A Preliminary Investigation
December 12, 2023
Autores: Zhongyi Han, Guanglin Zhou, Rundong He, Jindong Wang, Xing Xie, Tailin Wu, Yilong Yin, Salman Khan, Lina Yao, Tongliang Liu, Kun Zhang
cs.AI
Resumo
No aprendizado de máquina, a generalização contra mudanças de distribuição -- onde as condições de implantação divergem dos cenários de treinamento -- é crucial, especialmente em áreas como modelagem climática, biomedicina e direção autônoma. O surgimento de modelos de base, caracterizados por seu extenso pré-treinamento e versatilidade em tarefas, tem gerado um interesse crescente em sua adaptabilidade a mudanças de distribuição. O GPT-4V(ision) atua como o modelo de base multimodal mais avançado publicamente acessível, com amplas aplicações em diversos domínios, incluindo detecção de anomalias, compreensão de vídeo, geração de imagens e diagnóstico médico. No entanto, sua robustez contra diferentes distribuições de dados permanece amplamente inexplorada. Abordando essa lacuna, este estudo avalia rigorosamente a adaptabilidade e as capacidades de generalização do GPT-4V em ambientes dinâmicos, comparando-o com modelos proeminentes como CLIP e LLaVA. Investigamos a generalização zero-shot do GPT-4V em 13 conjuntos de dados diversos, abrangendo domínios naturais, médicos e moleculares. Além disso, exploramos sua adaptabilidade a perturbações controladas de dados e examinamos a eficácia do aprendizado em contexto como uma ferramenta para aprimorar sua adaptação. Nossos resultados delineiam os limites de capacidade do GPT-4V em mudanças de distribuição, destacando seus pontos fortes e limitações em vários cenários. Importante ressaltar que esta investigação contribui para nossa compreensão de como os modelos de base de IA generalizam para mudanças de distribuição, oferecendo insights cruciais sobre sua adaptabilidade e robustez. O código está disponível publicamente em https://github.com/jameszhou-gl/gpt-4v-distribution-shift.
English
In machine learning, generalization against distribution shifts -- where
deployment conditions diverge from the training scenarios -- is crucial,
particularly in fields like climate modeling, biomedicine, and autonomous
driving. The emergence of foundation models, distinguished by their extensive
pretraining and task versatility, has led to an increased interest in their
adaptability to distribution shifts. GPT-4V(ision) acts as the most advanced
publicly accessible multimodal foundation model, with extensive applications
across various domains, including anomaly detection, video understanding, image
generation, and medical diagnosis. However, its robustness against data
distributions remains largely underexplored. Addressing this gap, this study
rigorously evaluates GPT-4V's adaptability and generalization capabilities in
dynamic environments, benchmarking against prominent models like CLIP and
LLaVA. We delve into GPT-4V's zero-shot generalization across 13 diverse
datasets spanning natural, medical, and molecular domains. We further
investigate its adaptability to controlled data perturbations and examine the
efficacy of in-context learning as a tool to enhance its adaptation. Our
findings delineate GPT-4V's capability boundaries in distribution shifts,
shedding light on its strengths and limitations across various scenarios.
Importantly, this investigation contributes to our understanding of how AI
foundation models generalize to distribution shifts, offering pivotal insights
into their adaptability and robustness. Code is publicly available at
https://github.com/jameszhou-gl/gpt-4v-distribution-shift.