Adattamento di Modelli Visione-Linguaggio Senza Etichette: Una Rassegna Completa
Adapting Vision-Language Models Without Labels: A Comprehensive Survey
August 7, 2025
Autori: Hao Dong, Lijun Sheng, Jian Liang, Ran He, Eleni Chatzi, Olga Fink
cs.AI
Abstract
I modelli visione-linguaggio (VLMs) hanno dimostrato notevoli capacità di generalizzazione su un'ampia gamma di compiti. Tuttavia, le loro prestazioni spesso rimangono subottimali quando applicati direttamente a scenari downstream specifici senza un adattamento mirato al compito. Per migliorare la loro utilità preservando l'efficienza dei dati, la ricerca recente si è sempre più concentrata su metodi di adattamento non supervisionati che non si basano su dati etichettati. Nonostante il crescente interesse in questo ambito, manca ancora un'indagine unificata e orientata ai compiti dedicata all'adattamento non supervisionato dei VLMs. Per colmare questa lacuna, presentiamo una panoramica completa e strutturata del campo. Proponiamo una tassonomia basata sulla disponibilità e sulla natura dei dati visivi non etichettati, classificando gli approcci esistenti in quattro paradigmi chiave: Trasferimento Senza Dati (nessun dato), Trasferimento di Dominio Non Supervisionato (dati abbondanti), Adattamento al Test-Time Episodico (dati in batch) e Adattamento al Test-Time Online (dati in streaming). All'interno di questo framework, analizziamo le metodologie principali e le strategie di adattamento associate a ciascun paradigma, con l'obiettivo di stabilire una comprensione sistematica del campo. Inoltre, esaminiamo benchmark rappresentativi in diverse applicazioni e evidenziamo le sfide aperte e le direzioni promettenti per la ricerca futura. Un repository attivamente mantenuto della letteratura pertinente è disponibile all'indirizzo https://github.com/tim-learn/Awesome-LabelFree-VLMs.
English
Vision-Language Models (VLMs) have demonstrated remarkable generalization
capabilities across a wide range of tasks. However, their performance often
remains suboptimal when directly applied to specific downstream scenarios
without task-specific adaptation. To enhance their utility while preserving
data efficiency, recent research has increasingly focused on unsupervised
adaptation methods that do not rely on labeled data. Despite the growing
interest in this area, there remains a lack of a unified, task-oriented survey
dedicated to unsupervised VLM adaptation. To bridge this gap, we present a
comprehensive and structured overview of the field. We propose a taxonomy based
on the availability and nature of unlabeled visual data, categorizing existing
approaches into four key paradigms: Data-Free Transfer (no data), Unsupervised
Domain Transfer (abundant data), Episodic Test-Time Adaptation (batch data),
and Online Test-Time Adaptation (streaming data). Within this framework, we
analyze core methodologies and adaptation strategies associated with each
paradigm, aiming to establish a systematic understanding of the field.
Additionally, we review representative benchmarks across diverse applications
and highlight open challenges and promising directions for future research. An
actively maintained repository of relevant literature is available at
https://github.com/tim-learn/Awesome-LabelFree-VLMs.