ChatPaper.aiChatPaper

Преодоление трудностей тонкой настройки моделей "визуальный язык" для обобщения на данных, выходящих за пределы обучающего распределения

Overcoming the Pitfalls of Vision-Language Model Finetuning for OOD Generalization

January 29, 2024
Авторы: Yuhang Zang, Hanlin Goh, Josh Susskind, Chen Huang
cs.AI

Аннотация

Существующие модели, работающие с визуальными и языковыми данными, демонстрируют сильную способность к обобщению в различных визуальных областях и задачах. Однако такие модели в основном выполняют распознавание в режиме "нулевого снимка" (zero-shot) в рамках закрытого набора данных, что по своей природе затрудняет обработку визуальных концепций в открытой области. Недавно появились методы тонкой настройки, такие как обучение с использованием подсказок (prompt learning), которые не только изучают различия между примерами из распределения (in-distribution, ID) и вне его (out-of-distribution, OOD), но также показывают улучшения в точности как для ID, так и для OOD. В данной статье мы сначала показываем, что модели, работающие с визуальными и языковыми данными, после достаточно длительной тонкой настройки, но без должной регуляризации, склонны переобучаться на известных классах в предоставленном наборе данных, что ухудшает их производительность на неизвестных классах. Затем мы предлагаем новый подход OGEN для устранения этого недостатка, с основным акцентом на улучшении обобщающей способности (OOD generalization) настроенных моделей. В частности, вводится генератор признаков, зависящих от класса, который синтезирует OOD-признаки, используя только название любого неизвестного класса. Такие синтезированные признаки предоставляют полезную информацию о неизвестных классах и помогают регуляризировать границу принятия решений между ID и OOD данными при совместной оптимизации. Не менее важным является наш механизм адаптивного самообучения (adaptive self-distillation), который регуляризирует модель генерации признаков в процессе совместной оптимизации, то есть адаптивно передает знания между состояниями модели, чтобы дополнительно предотвратить переобучение. Эксперименты подтверждают, что наш метод обеспечивает убедительное улучшение обобщающей способности в различных настройках.
English
Existing vision-language models exhibit strong generalization on a variety of visual domains and tasks. However, such models mainly perform zero-shot recognition in a closed-set manner, and thus struggle to handle open-domain visual concepts by design. There are recent finetuning methods, such as prompt learning, that not only study the discrimination between in-distribution (ID) and out-of-distribution (OOD) samples, but also show some improvements in both ID and OOD accuracies. In this paper, we first demonstrate that vision-language models, after long enough finetuning but without proper regularization, tend to overfit the known classes in the given dataset, with degraded performance on unknown classes. Then we propose a novel approach OGEN to address this pitfall, with the main focus on improving the OOD GENeralization of finetuned models. Specifically, a class-conditional feature generator is introduced to synthesize OOD features using just the class name of any unknown class. Such synthesized features will provide useful knowledge about unknowns and help regularize the decision boundary between ID and OOD data when optimized jointly. Equally important is our adaptive self-distillation mechanism to regularize our feature generation model during joint optimization, i.e., adaptively transferring knowledge between model states to further prevent overfitting. Experiments validate that our method yields convincing gains in OOD generalization performance in different settings.
PDF71December 15, 2024