ChatPaper.aiChatPaper

Adattamento di Modelli Visione-Linguaggio Senza Etichette: Una Rassegna Completa

Adapting Vision-Language Models Without Labels: A Comprehensive Survey

August 7, 2025
Autori: Hao Dong, Lijun Sheng, Jian Liang, Ran He, Eleni Chatzi, Olga Fink
cs.AI

Abstract

I modelli visione-linguaggio (VLMs) hanno dimostrato notevoli capacità di generalizzazione su un'ampia gamma di compiti. Tuttavia, le loro prestazioni spesso rimangono subottimali quando applicati direttamente a scenari downstream specifici senza un adattamento mirato al compito. Per migliorare la loro utilità preservando l'efficienza dei dati, la ricerca recente si è sempre più concentrata su metodi di adattamento non supervisionati che non si basano su dati etichettati. Nonostante il crescente interesse in questo ambito, manca ancora un'indagine unificata e orientata ai compiti dedicata all'adattamento non supervisionato dei VLMs. Per colmare questa lacuna, presentiamo una panoramica completa e strutturata del campo. Proponiamo una tassonomia basata sulla disponibilità e sulla natura dei dati visivi non etichettati, classificando gli approcci esistenti in quattro paradigmi chiave: Trasferimento Senza Dati (nessun dato), Trasferimento di Dominio Non Supervisionato (dati abbondanti), Adattamento al Test-Time Episodico (dati in batch) e Adattamento al Test-Time Online (dati in streaming). All'interno di questo framework, analizziamo le metodologie principali e le strategie di adattamento associate a ciascun paradigma, con l'obiettivo di stabilire una comprensione sistematica del campo. Inoltre, esaminiamo benchmark rappresentativi in diverse applicazioni e evidenziamo le sfide aperte e le direzioni promettenti per la ricerca futura. Un repository attivamente mantenuto della letteratura pertinente è disponibile all'indirizzo https://github.com/tim-learn/Awesome-LabelFree-VLMs.
English
Vision-Language Models (VLMs) have demonstrated remarkable generalization capabilities across a wide range of tasks. However, their performance often remains suboptimal when directly applied to specific downstream scenarios without task-specific adaptation. To enhance their utility while preserving data efficiency, recent research has increasingly focused on unsupervised adaptation methods that do not rely on labeled data. Despite the growing interest in this area, there remains a lack of a unified, task-oriented survey dedicated to unsupervised VLM adaptation. To bridge this gap, we present a comprehensive and structured overview of the field. We propose a taxonomy based on the availability and nature of unlabeled visual data, categorizing existing approaches into four key paradigms: Data-Free Transfer (no data), Unsupervised Domain Transfer (abundant data), Episodic Test-Time Adaptation (batch data), and Online Test-Time Adaptation (streaming data). Within this framework, we analyze core methodologies and adaptation strategies associated with each paradigm, aiming to establish a systematic understanding of the field. Additionally, we review representative benchmarks across diverse applications and highlight open challenges and promising directions for future research. An actively maintained repository of relevant literature is available at https://github.com/tim-learn/Awesome-LabelFree-VLMs.
PDF112August 11, 2025