ChatPaper.aiChatPaper

Superando os Desafios do Ajuste Fino de Modelos Visão-Linguagem para Generalização Fora da Distribuição

Overcoming the Pitfalls of Vision-Language Model Finetuning for OOD Generalization

January 29, 2024
Autores: Yuhang Zang, Hanlin Goh, Josh Susskind, Chen Huang
cs.AI

Resumo

Os modelos visão-linguagem existentes exibem forte generalização em uma variedade de domínios visuais e tarefas. No entanto, esses modelos realizam principalmente reconhecimento zero-shot de maneira de conjunto fechado e, portanto, lutam para lidar com conceitos visuais de domínio aberto por design. Existem métodos recentes de ajuste fino, como o aprendizado de prompts, que não apenas estudam a discriminação entre amostras dentro da distribuição (ID) e fora da distribuição (OOD), mas também mostram algumas melhorias nas precisões tanto ID quanto OOD. Neste artigo, primeiro demonstramos que modelos visão-linguagem, após ajuste fino suficientemente longo, mas sem regularização adequada, tendem a sobreajustar as classes conhecidas no conjunto de dados fornecido, com desempenho degradado em classes desconhecidas. Em seguida, propomos uma nova abordagem chamada OGEN para abordar essa falha, com o foco principal em melhorar a generalização OOD de modelos ajustados. Especificamente, um gerador de características condicionado por classe é introduzido para sintetizar características OOD usando apenas o nome da classe de qualquer classe desconhecida. Essas características sintetizadas fornecerão conhecimento útil sobre as desconhecidas e ajudarão a regularizar a fronteira de decisão entre dados ID e OOD quando otimizadas em conjunto. Igualmente importante é nosso mecanismo de auto-distilação adaptativa para regularizar nosso modelo de geração de características durante a otimização conjunta, ou seja, transferir conhecimento de forma adaptativa entre estados do modelo para prevenir ainda mais o sobreajuste. Experimentos validam que nosso método produz ganhos convincentes no desempenho de generalização OOD em diferentes configurações.
English
Existing vision-language models exhibit strong generalization on a variety of visual domains and tasks. However, such models mainly perform zero-shot recognition in a closed-set manner, and thus struggle to handle open-domain visual concepts by design. There are recent finetuning methods, such as prompt learning, that not only study the discrimination between in-distribution (ID) and out-of-distribution (OOD) samples, but also show some improvements in both ID and OOD accuracies. In this paper, we first demonstrate that vision-language models, after long enough finetuning but without proper regularization, tend to overfit the known classes in the given dataset, with degraded performance on unknown classes. Then we propose a novel approach OGEN to address this pitfall, with the main focus on improving the OOD GENeralization of finetuned models. Specifically, a class-conditional feature generator is introduced to synthesize OOD features using just the class name of any unknown class. Such synthesized features will provide useful knowledge about unknowns and help regularize the decision boundary between ID and OOD data when optimized jointly. Equally important is our adaptive self-distillation mechanism to regularize our feature generation model during joint optimization, i.e., adaptively transferring knowledge between model states to further prevent overfitting. Experiments validate that our method yields convincing gains in OOD generalization performance in different settings.
PDF71December 15, 2024