Superando os Desafios do Ajuste Fino de Modelos Visão-Linguagem para Generalização Fora da Distribuição
Overcoming the Pitfalls of Vision-Language Model Finetuning for OOD Generalization
January 29, 2024
Autores: Yuhang Zang, Hanlin Goh, Josh Susskind, Chen Huang
cs.AI
Resumo
Os modelos visão-linguagem existentes exibem forte generalização em uma variedade de domínios visuais e tarefas. No entanto, esses modelos realizam principalmente reconhecimento zero-shot de maneira de conjunto fechado e, portanto, lutam para lidar com conceitos visuais de domínio aberto por design. Existem métodos recentes de ajuste fino, como o aprendizado de prompts, que não apenas estudam a discriminação entre amostras dentro da distribuição (ID) e fora da distribuição (OOD), mas também mostram algumas melhorias nas precisões tanto ID quanto OOD. Neste artigo, primeiro demonstramos que modelos visão-linguagem, após ajuste fino suficientemente longo, mas sem regularização adequada, tendem a sobreajustar as classes conhecidas no conjunto de dados fornecido, com desempenho degradado em classes desconhecidas. Em seguida, propomos uma nova abordagem chamada OGEN para abordar essa falha, com o foco principal em melhorar a generalização OOD de modelos ajustados. Especificamente, um gerador de características condicionado por classe é introduzido para sintetizar características OOD usando apenas o nome da classe de qualquer classe desconhecida. Essas características sintetizadas fornecerão conhecimento útil sobre as desconhecidas e ajudarão a regularizar a fronteira de decisão entre dados ID e OOD quando otimizadas em conjunto. Igualmente importante é nosso mecanismo de auto-distilação adaptativa para regularizar nosso modelo de geração de características durante a otimização conjunta, ou seja, transferir conhecimento de forma adaptativa entre estados do modelo para prevenir ainda mais o sobreajuste. Experimentos validam que nosso método produz ganhos convincentes no desempenho de generalização OOD em diferentes configurações.
English
Existing vision-language models exhibit strong generalization on a variety of
visual domains and tasks. However, such models mainly perform zero-shot
recognition in a closed-set manner, and thus struggle to handle open-domain
visual concepts by design. There are recent finetuning methods, such as prompt
learning, that not only study the discrimination between in-distribution (ID)
and out-of-distribution (OOD) samples, but also show some improvements in both
ID and OOD accuracies. In this paper, we first demonstrate that vision-language
models, after long enough finetuning but without proper regularization, tend to
overfit the known classes in the given dataset, with degraded performance on
unknown classes. Then we propose a novel approach OGEN to address this pitfall,
with the main focus on improving the OOD GENeralization of finetuned models.
Specifically, a class-conditional feature generator is introduced to synthesize
OOD features using just the class name of any unknown class. Such synthesized
features will provide useful knowledge about unknowns and help regularize the
decision boundary between ID and OOD data when optimized jointly. Equally
important is our adaptive self-distillation mechanism to regularize our feature
generation model during joint optimization, i.e., adaptively transferring
knowledge between model states to further prevent overfitting. Experiments
validate that our method yields convincing gains in OOD generalization
performance in different settings.