Преодоление трудностей тонкой настройки моделей "визуальный язык" для обобщения на данных, выходящих за пределы обучающего распределения
Overcoming the Pitfalls of Vision-Language Model Finetuning for OOD Generalization
January 29, 2024
Авторы: Yuhang Zang, Hanlin Goh, Josh Susskind, Chen Huang
cs.AI
Аннотация
Существующие модели, работающие с визуальными и языковыми данными, демонстрируют сильную способность к обобщению в различных визуальных областях и задачах. Однако такие модели в основном выполняют распознавание в режиме "нулевого снимка" (zero-shot) в рамках закрытого набора данных, что по своей природе затрудняет обработку визуальных концепций в открытой области. Недавно появились методы тонкой настройки, такие как обучение с использованием подсказок (prompt learning), которые не только изучают различия между примерами из распределения (in-distribution, ID) и вне его (out-of-distribution, OOD), но также показывают улучшения в точности как для ID, так и для OOD. В данной статье мы сначала показываем, что модели, работающие с визуальными и языковыми данными, после достаточно длительной тонкой настройки, но без должной регуляризации, склонны переобучаться на известных классах в предоставленном наборе данных, что ухудшает их производительность на неизвестных классах. Затем мы предлагаем новый подход OGEN для устранения этого недостатка, с основным акцентом на улучшении обобщающей способности (OOD generalization) настроенных моделей. В частности, вводится генератор признаков, зависящих от класса, который синтезирует OOD-признаки, используя только название любого неизвестного класса. Такие синтезированные признаки предоставляют полезную информацию о неизвестных классах и помогают регуляризировать границу принятия решений между ID и OOD данными при совместной оптимизации. Не менее важным является наш механизм адаптивного самообучения (adaptive self-distillation), который регуляризирует модель генерации признаков в процессе совместной оптимизации, то есть адаптивно передает знания между состояниями модели, чтобы дополнительно предотвратить переобучение. Эксперименты подтверждают, что наш метод обеспечивает убедительное улучшение обобщающей способности в различных настройках.
English
Existing vision-language models exhibit strong generalization on a variety of
visual domains and tasks. However, such models mainly perform zero-shot
recognition in a closed-set manner, and thus struggle to handle open-domain
visual concepts by design. There are recent finetuning methods, such as prompt
learning, that not only study the discrimination between in-distribution (ID)
and out-of-distribution (OOD) samples, but also show some improvements in both
ID and OOD accuracies. In this paper, we first demonstrate that vision-language
models, after long enough finetuning but without proper regularization, tend to
overfit the known classes in the given dataset, with degraded performance on
unknown classes. Then we propose a novel approach OGEN to address this pitfall,
with the main focus on improving the OOD GENeralization of finetuned models.
Specifically, a class-conditional feature generator is introduced to synthesize
OOD features using just the class name of any unknown class. Such synthesized
features will provide useful knowledge about unknowns and help regularize the
decision boundary between ID and OOD data when optimized jointly. Equally
important is our adaptive self-distillation mechanism to regularize our feature
generation model during joint optimization, i.e., adaptively transferring
knowledge between model states to further prevent overfitting. Experiments
validate that our method yields convincing gains in OOD generalization
performance in different settings.