Superando los desafíos del ajuste fino de modelos de visión-lenguaje para la generalización fuera de distribución
Overcoming the Pitfalls of Vision-Language Model Finetuning for OOD Generalization
January 29, 2024
Autores: Yuhang Zang, Hanlin Goh, Josh Susskind, Chen Huang
cs.AI
Resumen
Los modelos visión-lenguaje existentes exhiben una fuerte generalización en diversos dominios visuales y tareas. Sin embargo, estos modelos principalmente realizan reconocimiento zero-shot de manera de conjunto cerrado, y por lo tanto, por diseño, tienen dificultades para manejar conceptos visuales de dominio abierto. Existen métodos recientes de ajuste fino, como el aprendizaje de prompts, que no solo estudian la discriminación entre muestras dentro de la distribución (ID) y fuera de la distribución (OOD), sino que también muestran algunas mejoras en las precisiones tanto ID como OOD. En este artículo, primero demostramos que los modelos visión-lenguaje, después de un ajuste fino suficientemente prolongado pero sin una regularización adecuada, tienden a sobreajustarse a las clases conocidas en el conjunto de datos dado, con un rendimiento degradado en las clases desconocidas. Luego, proponemos un enfoque novedoso, OGEN, para abordar este problema, con el enfoque principal en mejorar la generalización OOD de los modelos ajustados. Específicamente, se introduce un generador de características condicional a la clase para sintetizar características OOD utilizando solo el nombre de la clase de cualquier clase desconocida. Dichas características sintetizadas proporcionarán conocimiento útil sobre las desconocidas y ayudarán a regularizar el límite de decisión entre los datos ID y OOD cuando se optimizan conjuntamente. Igualmente importante es nuestro mecanismo de auto-distilación adaptativa para regularizar nuestro modelo de generación de características durante la optimización conjunta, es decir, transferir conocimiento de manera adaptativa entre estados del modelo para prevenir aún más el sobreajuste. Los experimentos validan que nuestro método produce ganancias convincentes en el rendimiento de generalización OOD en diferentes configuraciones.
English
Existing vision-language models exhibit strong generalization on a variety of
visual domains and tasks. However, such models mainly perform zero-shot
recognition in a closed-set manner, and thus struggle to handle open-domain
visual concepts by design. There are recent finetuning methods, such as prompt
learning, that not only study the discrimination between in-distribution (ID)
and out-of-distribution (OOD) samples, but also show some improvements in both
ID and OOD accuracies. In this paper, we first demonstrate that vision-language
models, after long enough finetuning but without proper regularization, tend to
overfit the known classes in the given dataset, with degraded performance on
unknown classes. Then we propose a novel approach OGEN to address this pitfall,
with the main focus on improving the OOD GENeralization of finetuned models.
Specifically, a class-conditional feature generator is introduced to synthesize
OOD features using just the class name of any unknown class. Such synthesized
features will provide useful knowledge about unknowns and help regularize the
decision boundary between ID and OOD data when optimized jointly. Equally
important is our adaptive self-distillation mechanism to regularize our feature
generation model during joint optimization, i.e., adaptively transferring
knowledge between model states to further prevent overfitting. Experiments
validate that our method yields convincing gains in OOD generalization
performance in different settings.