Насколько хорошо GPT-4V(ision) адаптируется к сдвигам распределения? Предварительное исследование
How Well Does GPT-4V(ision) Adapt to Distribution Shifts? A Preliminary Investigation
December 12, 2023
Авторы: Zhongyi Han, Guanglin Zhou, Rundong He, Jindong Wang, Xing Xie, Tailin Wu, Yilong Yin, Salman Khan, Lina Yao, Tongliang Liu, Kun Zhang
cs.AI
Аннотация
В машинном обучении обобщение в условиях сдвигов распределения — когда условия развертывания отличаются от сценариев обучения — имеет критическое значение, особенно в таких областях, как климатическое моделирование, биомедицина и автономное вождение. Появление базовых моделей, отличающихся масштабным предварительным обучением и универсальностью в решении задач, вызвало повышенный интерес к их адаптивности к сдвигам распределения. GPT-4V(ision) представляет собой наиболее продвинутую общедоступную мультимодальную базовую модель с широким спектром применений в различных областях, включая обнаружение аномалий, понимание видео, генерацию изображений и медицинскую диагностику. Однако её устойчивость к изменениям в распределении данных остается малоизученной. Восполняя этот пробел, данное исследование тщательно оценивает адаптивность и способность к обобщению GPT-4V в динамических средах, сравнивая её с известными моделями, такими как CLIP и LLaVA. Мы углубляемся в изучение нулевого обобщения GPT-4V на 13 разнообразных наборах данных, охватывающих естественные, медицинские и молекулярные области. Кроме того, мы исследуем её адаптивность к контролируемым возмущениям данных и изучаем эффективность обучения в контексте как инструмента для улучшения её адаптации. Наши результаты определяют границы возможностей GPT-4V в условиях сдвигов распределения, выявляя её сильные и слабые стороны в различных сценариях. Важно отметить, что это исследование способствует пониманию того, как базовые модели ИИ обобщают сдвиги распределения, предоставляя ключевые инсайты об их адаптивности и устойчивости. Код доступен по адресу: https://github.com/jameszhou-gl/gpt-4v-distribution-shift.
English
In machine learning, generalization against distribution shifts -- where
deployment conditions diverge from the training scenarios -- is crucial,
particularly in fields like climate modeling, biomedicine, and autonomous
driving. The emergence of foundation models, distinguished by their extensive
pretraining and task versatility, has led to an increased interest in their
adaptability to distribution shifts. GPT-4V(ision) acts as the most advanced
publicly accessible multimodal foundation model, with extensive applications
across various domains, including anomaly detection, video understanding, image
generation, and medical diagnosis. However, its robustness against data
distributions remains largely underexplored. Addressing this gap, this study
rigorously evaluates GPT-4V's adaptability and generalization capabilities in
dynamic environments, benchmarking against prominent models like CLIP and
LLaVA. We delve into GPT-4V's zero-shot generalization across 13 diverse
datasets spanning natural, medical, and molecular domains. We further
investigate its adaptability to controlled data perturbations and examine the
efficacy of in-context learning as a tool to enhance its adaptation. Our
findings delineate GPT-4V's capability boundaries in distribution shifts,
shedding light on its strengths and limitations across various scenarios.
Importantly, this investigation contributes to our understanding of how AI
foundation models generalize to distribution shifts, offering pivotal insights
into their adaptability and robustness. Code is publicly available at
https://github.com/jameszhou-gl/gpt-4v-distribution-shift.