Dans quelle mesure GPT-4V(ision) s'adapte-t-il aux changements de distribution ? Une investigation préliminaire
How Well Does GPT-4V(ision) Adapt to Distribution Shifts? A Preliminary Investigation
December 12, 2023
Auteurs: Zhongyi Han, Guanglin Zhou, Rundong He, Jindong Wang, Xing Xie, Tailin Wu, Yilong Yin, Salman Khan, Lina Yao, Tongliang Liu, Kun Zhang
cs.AI
Résumé
En apprentissage automatique, la généralisation face aux décalages de distribution - où les conditions de déploiement divergent des scénarios d'entraînement - est cruciale, en particulier dans des domaines comme la modélisation climatique, la biomédecine et la conduite autonome. L'émergence des modèles de fondation, caractérisés par leur pré-entraînement extensif et leur polyvalence face aux tâches, a suscité un intérêt croissant pour leur adaptabilité aux décalages de distribution. GPT-4V(ision) représente le modèle de fondation multimodal le plus avancé accessible au public, avec des applications étendues dans divers domaines, notamment la détection d'anomalies, la compréhension vidéo, la génération d'images et le diagnostic médical. Cependant, sa robustesse face aux distributions de données reste largement inexplorée. Comblant cette lacune, cette étude évalue rigoureusement l'adaptabilité et les capacités de généralisation de GPT-4V dans des environnements dynamiques, en le comparant à des modèles de référence comme CLIP et LLaVA. Nous explorons la généralisation en zero-shot de GPT-4V sur 13 ensembles de données variés couvrant les domaines naturels, médicaux et moléculaires. Nous examinons également son adaptabilité face à des perturbations contrôlées des données et étudions l'efficacité de l'apprentissage en contexte comme outil pour améliorer son adaptation. Nos résultats délimitent les capacités de GPT-4V face aux décalages de distribution, mettant en lumière ses forces et ses limites dans divers scénarios. Cette investigation contribue de manière significative à notre compréhension de la manière dont les modèles de fondation en IA généralisent face aux décalages de distribution, offrant des insights cruciaux sur leur adaptabilité et leur robustesse. Le code est disponible publiquement à l'adresse https://github.com/jameszhou-gl/gpt-4v-distribution-shift.
English
In machine learning, generalization against distribution shifts -- where
deployment conditions diverge from the training scenarios -- is crucial,
particularly in fields like climate modeling, biomedicine, and autonomous
driving. The emergence of foundation models, distinguished by their extensive
pretraining and task versatility, has led to an increased interest in their
adaptability to distribution shifts. GPT-4V(ision) acts as the most advanced
publicly accessible multimodal foundation model, with extensive applications
across various domains, including anomaly detection, video understanding, image
generation, and medical diagnosis. However, its robustness against data
distributions remains largely underexplored. Addressing this gap, this study
rigorously evaluates GPT-4V's adaptability and generalization capabilities in
dynamic environments, benchmarking against prominent models like CLIP and
LLaVA. We delve into GPT-4V's zero-shot generalization across 13 diverse
datasets spanning natural, medical, and molecular domains. We further
investigate its adaptability to controlled data perturbations and examine the
efficacy of in-context learning as a tool to enhance its adaptation. Our
findings delineate GPT-4V's capability boundaries in distribution shifts,
shedding light on its strengths and limitations across various scenarios.
Importantly, this investigation contributes to our understanding of how AI
foundation models generalize to distribution shifts, offering pivotal insights
into their adaptability and robustness. Code is publicly available at
https://github.com/jameszhou-gl/gpt-4v-distribution-shift.