GPT-4V(ision)は分布シフトにどの程度適応できるか?予備的調査
How Well Does GPT-4V(ision) Adapt to Distribution Shifts? A Preliminary Investigation
December 12, 2023
著者: Zhongyi Han, Guanglin Zhou, Rundong He, Jindong Wang, Xing Xie, Tailin Wu, Yilong Yin, Salman Khan, Lina Yao, Tongliang Liu, Kun Zhang
cs.AI
要旨
機械学習において、分布シフトに対する汎化能力——つまり、展開環境が学習シナリオから乖離する状況下での適応性——は、気候モデリング、生物医学、自動運転などの分野で特に重要です。大規模な事前学習とタスクの汎用性を特徴とする基盤モデルの登場により、これらのモデルの分布シフトへの適応性に対する関心が高まっています。GPT-4V(ision)は、現在公開されている最も先進的なマルチモーダル基盤モデルであり、異常検知、映像理解、画像生成、医療診断など、さまざまな領域で広範に応用されています。しかし、データ分布に対するその頑健性は、まだ十分に検証されていません。このギャップを埋めるため、本研究では、GPT-4Vの動的環境における適応性と汎化能力を厳密に評価し、CLIPやLLaVAなどの主要なモデルと比較します。自然、医療、分子領域にわたる13の多様なデータセットにおけるGPT-4Vのゼロショット汎化能力を詳細に検証します。さらに、制御されたデータ摂動への適応性を調査し、その適応を強化するためのツールとしてのインコンテキスト学習の有効性を検討します。本研究の結果は、GPT-4Vの分布シフトにおける能力の境界を明らかにし、さまざまなシナリオでの強みと限界を浮き彫りにします。重要なことに、この調査は、AI基盤モデルが分布シフトにどのように汎化するかについての理解を深め、その適応性と頑健性に関する重要な洞察を提供します。コードはhttps://github.com/jameszhou-gl/gpt-4v-distribution-shiftで公開されています。
English
In machine learning, generalization against distribution shifts -- where
deployment conditions diverge from the training scenarios -- is crucial,
particularly in fields like climate modeling, biomedicine, and autonomous
driving. The emergence of foundation models, distinguished by their extensive
pretraining and task versatility, has led to an increased interest in their
adaptability to distribution shifts. GPT-4V(ision) acts as the most advanced
publicly accessible multimodal foundation model, with extensive applications
across various domains, including anomaly detection, video understanding, image
generation, and medical diagnosis. However, its robustness against data
distributions remains largely underexplored. Addressing this gap, this study
rigorously evaluates GPT-4V's adaptability and generalization capabilities in
dynamic environments, benchmarking against prominent models like CLIP and
LLaVA. We delve into GPT-4V's zero-shot generalization across 13 diverse
datasets spanning natural, medical, and molecular domains. We further
investigate its adaptability to controlled data perturbations and examine the
efficacy of in-context learning as a tool to enhance its adaptation. Our
findings delineate GPT-4V's capability boundaries in distribution shifts,
shedding light on its strengths and limitations across various scenarios.
Importantly, this investigation contributes to our understanding of how AI
foundation models generalize to distribution shifts, offering pivotal insights
into their adaptability and robustness. Code is publicly available at
https://github.com/jameszhou-gl/gpt-4v-distribution-shift.