OOD汎化のための視覚言語モデルファインチューニングの落とし穴を克服する
Overcoming the Pitfalls of Vision-Language Model Finetuning for OOD Generalization
January 29, 2024
著者: Yuhang Zang, Hanlin Goh, Josh Susskind, Chen Huang
cs.AI
要旨
既存の視覚言語モデルは、様々な視覚領域やタスクにおいて強力な汎化性能を示しています。しかし、これらのモデルは主に閉じたセットでのゼロショット認識を行い、設計上、オープンドメインの視覚概念を扱うことに苦労しています。最近では、プロンプト学習のようなファインチューニング手法が提案されており、これらは分布内(ID)と分布外(OOD)サンプルの識別を研究するだけでなく、IDとOODの精度の両方でいくつかの改善を示しています。本論文では、まず、十分に長いファインチューニングを行ったが適切な正則化を行わなかった視覚言語モデルが、与えられたデータセットの既知クラスに過剰適合し、未知クラスでの性能が低下する傾向があることを示します。次に、この欠点を解決するために、ファインチューニングされたモデルのOOD汎化(OOD GENeralization)を改善することに主眼を置いた新しいアプローチOGENを提案します。具体的には、クラス条件付き特徴生成器を導入し、未知クラスのクラス名のみを使用してOOD特徴を合成します。このような合成された特徴は、未知に関する有用な知識を提供し、IDデータとOODデータの間の決定境界を正則化するのに役立ちます。同様に重要なのは、共同最適化中に特徴生成モデルを正則化するための適応的自己蒸留メカニズムであり、モデル状態間で知識を適応的に転送することで、過剰適合をさらに防ぎます。実験により、我々の方法が異なる設定においてOOD汎化性能において説得力のある向上をもたらすことが検証されています。
English
Existing vision-language models exhibit strong generalization on a variety of
visual domains and tasks. However, such models mainly perform zero-shot
recognition in a closed-set manner, and thus struggle to handle open-domain
visual concepts by design. There are recent finetuning methods, such as prompt
learning, that not only study the discrimination between in-distribution (ID)
and out-of-distribution (OOD) samples, but also show some improvements in both
ID and OOD accuracies. In this paper, we first demonstrate that vision-language
models, after long enough finetuning but without proper regularization, tend to
overfit the known classes in the given dataset, with degraded performance on
unknown classes. Then we propose a novel approach OGEN to address this pitfall,
with the main focus on improving the OOD GENeralization of finetuned models.
Specifically, a class-conditional feature generator is introduced to synthesize
OOD features using just the class name of any unknown class. Such synthesized
features will provide useful knowledge about unknowns and help regularize the
decision boundary between ID and OOD data when optimized jointly. Equally
important is our adaptive self-distillation mechanism to regularize our feature
generation model during joint optimization, i.e., adaptively transferring
knowledge between model states to further prevent overfitting. Experiments
validate that our method yields convincing gains in OOD generalization
performance in different settings.