Adaptación de Modelos Visión-Lenguaje Sin Etiquetas: Una Revisión Exhaustiva
Adapting Vision-Language Models Without Labels: A Comprehensive Survey
August 7, 2025
Autores: Hao Dong, Lijun Sheng, Jian Liang, Ran He, Eleni Chatzi, Olga Fink
cs.AI
Resumen
Los Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés) han demostrado capacidades de generalización notables en una amplia gama de tareas. Sin embargo, su rendimiento suele ser subóptimo cuando se aplican directamente a escenarios específicos sin una adaptación específica para la tarea. Para mejorar su utilidad manteniendo la eficiencia de datos, investigaciones recientes se han centrado cada vez más en métodos de adaptación no supervisados que no dependen de datos etiquetados. A pesar del creciente interés en esta área, aún falta una encuesta unificada y orientada a tareas dedicada a la adaptación no supervisada de VLMs. Para cerrar esta brecha, presentamos una visión general estructurada y exhaustiva del campo. Proponemos una taxonomía basada en la disponibilidad y naturaleza de los datos visuales no etiquetados, categorizando los enfoques existentes en cuatro paradigmas clave: Transferencia sin Datos (sin datos), Transferencia de Dominio no Supervisada (datos abundantes), Adaptación en Tiempo de Prueba Episódica (datos por lotes) y Adaptación en Tiempo de Prueba en Línea (datos en flujo). Dentro de este marco, analizamos las metodologías principales y las estrategias de adaptación asociadas con cada paradigma, con el objetivo de establecer una comprensión sistemática del campo. Además, revisamos benchmarks representativos en diversas aplicaciones y destacamos desafíos abiertos y direcciones prometedoras para futuras investigaciones. Un repositorio activamente mantenido de literatura relevante está disponible en https://github.com/tim-learn/Awesome-LabelFree-VLMs.
English
Vision-Language Models (VLMs) have demonstrated remarkable generalization
capabilities across a wide range of tasks. However, their performance often
remains suboptimal when directly applied to specific downstream scenarios
without task-specific adaptation. To enhance their utility while preserving
data efficiency, recent research has increasingly focused on unsupervised
adaptation methods that do not rely on labeled data. Despite the growing
interest in this area, there remains a lack of a unified, task-oriented survey
dedicated to unsupervised VLM adaptation. To bridge this gap, we present a
comprehensive and structured overview of the field. We propose a taxonomy based
on the availability and nature of unlabeled visual data, categorizing existing
approaches into four key paradigms: Data-Free Transfer (no data), Unsupervised
Domain Transfer (abundant data), Episodic Test-Time Adaptation (batch data),
and Online Test-Time Adaptation (streaming data). Within this framework, we
analyze core methodologies and adaptation strategies associated with each
paradigm, aiming to establish a systematic understanding of the field.
Additionally, we review representative benchmarks across diverse applications
and highlight open challenges and promising directions for future research. An
actively maintained repository of relevant literature is available at
https://github.com/tim-learn/Awesome-LabelFree-VLMs.