Adaptación de Modelos Visión-Lenguaje Sin Etiquetas: Una Revisión Exhaustiva

Resumen

Los Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés) han demostrado capacidades de generalización notables en una amplia gama de tareas. Sin embargo, su rendimiento suele ser subóptimo cuando se aplican directamente a escenarios específicos sin una adaptación específica para la tarea. Para mejorar su utilidad manteniendo la eficiencia de datos, investigaciones recientes se han centrado cada vez más en métodos de adaptación no supervisados que no dependen de datos etiquetados. A pesar del creciente interés en esta área, aún falta una encuesta unificada y orientada a tareas dedicada a la adaptación no supervisada de VLMs. Para cerrar esta brecha, presentamos una visión general estructurada y exhaustiva del campo. Proponemos una taxonomía basada en la disponibilidad y naturaleza de los datos visuales no etiquetados, categorizando los enfoques existentes en cuatro paradigmas clave: Transferencia sin Datos (sin datos), Transferencia de Dominio no Supervisada (datos abundantes), Adaptación en Tiempo de Prueba Episódica (datos por lotes) y Adaptación en Tiempo de Prueba en Línea (datos en flujo). Dentro de este marco, analizamos las metodologías principales y las estrategias de adaptación asociadas con cada paradigma, con el objetivo de establecer una comprensión sistemática del campo. Además, revisamos benchmarks representativos en diversas aplicaciones y destacamos desafíos abiertos y direcciones prometedoras para futuras investigaciones. Un repositorio activamente mantenido de literatura relevante está disponible en https://github.com/tim-learn/Awesome-LabelFree-VLMs.

English

Vision-Language Models (VLMs) have demonstrated remarkable generalization capabilities across a wide range of tasks. However, their performance often remains suboptimal when directly applied to specific downstream scenarios without task-specific adaptation. To enhance their utility while preserving data efficiency, recent research has increasingly focused on unsupervised adaptation methods that do not rely on labeled data. Despite the growing interest in this area, there remains a lack of a unified, task-oriented survey dedicated to unsupervised VLM adaptation. To bridge this gap, we present a comprehensive and structured overview of the field. We propose a taxonomy based on the availability and nature of unlabeled visual data, categorizing existing approaches into four key paradigms: Data-Free Transfer (no data), Unsupervised Domain Transfer (abundant data), Episodic Test-Time Adaptation (batch data), and Online Test-Time Adaptation (streaming data). Within this framework, we analyze core methodologies and adaptation strategies associated with each paradigm, aiming to establish a systematic understanding of the field. Additionally, we review representative benchmarks across diverse applications and highlight open challenges and promising directions for future research. An actively maintained repository of relevant literature is available at https://github.com/tim-learn/Awesome-LabelFree-VLMs.

Adaptación de Modelos Visión-Lenguaje Sin Etiquetas: Una Revisión Exhaustiva

Adapting Vision-Language Models Without Labels: A Comprehensive Survey

Resumen

Support