VIOLA: Verso l'Apprendimento In-Contesto per Video con Annotazioni Minime

Abstract

La generalizzazione dei Modelli Linguistici Multimodali di grandi dimensioni (MLLM) a nuovi domini video è essenziale per il dispiegamento nel mondo reale, ma rimane una sfida a causa della scarsità di dati etichettati. Sebbene l'Apprendimento In-Contesto (ICL) offra un percorso di adattamento senza addestramento, i metodi standard si basano su ampi pool di dati annotati, spesso impraticabili in ambienti specializzati come contesti industriali o chirurgici, poiché richiedono le annotazioni di esperti. Per colmare questa lacuna, introduciamo VIOLA (Video In-cOntext Learning with minimal Annotation), un framework efficiente nell'uso delle etichette che sinergizza una supervisione esperta minima con dati non etichettati abbondanti. In primo luogo, per massimizzare l'efficienza di un budget di annotazione rigoroso, proponiamo un campionamento ponderato per densità e incertezza. A differenza delle strategie standard di diversità o incertezza che rischiano di selezionare outlier visivi, il nostro metodo sfrutta la stima della densità per identificare campioni che sono simultaneamente diversificati, rappresentativi e informativi. In secondo luogo, per utilizzare i restanti dati non etichettati senza propagare rumore, costruiamo un pool ibrido e introduciamo un retrieval consapevole della confidenza e un prompting consapevole della confidenza. Questi meccanismi modellano esplicitamente l'affidabilità dell'etichetta, recuperando dimostrazioni basate su un punteggio composito di similarità e confidenza, consentendo allo stesso tempo all'MLLM di distinguere in modo adattivo tra verità fondamentali verificate e pseudo-etichette rumorose. Esperimenti estensivi su nove benchmark diversi utilizzando quattro MLLM dimostrano che il nostro framework supera significativamente varie baseline in scenari a risorse limitate, raggiungendo un adattamento robusto con costi di annotazione minimi.

English

Generalizing Multimodal Large Language Models (MLLMs) to novel video domains is essential for real-world deployment but remains challenging due to the scarcity of labeled data. While In-Context Learning (ICL) offers a training-free adaptation path, standard methods rely on large annotated pools, which are often impractical in specialized environments like industrial or surgical settings since they require the experts' annotations. To bridge this gap, we introduce VIOLA (Video In-cOntext Learning with minimal Annotation), a label-efficient framework that synergizes minimal expert supervision with abundant unlabeled data. First, to maximize the efficiency of a strict annotation budget, we propose density-uncertainty-weighted sampling. Unlike standard diversity or uncertainty strategies that risk selecting visual outliers, our method leverages density estimation to identify samples that are simultaneously diverse, representative, and informative. Second, to utilize the remaining unlabeled data without noise propagation, we construct a hybrid pool and introduce confidence-aware retrieval and confidence-aware prompting. These mechanisms explicitly model label reliability, retrieving demonstrations based on a composite score of similarity and confidence while enabling the MLLM to adaptively distinguish between verified ground truths and noisy pseudo-labels. Extensive experiments across nine diverse benchmarks using four MLLMs demonstrate that our framework significantly outperforms various baselines in low-resource settings, achieving robust adaptation with minimal annotation costs.

VIOLA: Verso l'Apprendimento In-Contesto per Video con Annotazioni Minime

VIOLA: Towards Video In-Context Learning with Minimal Annotations

Abstract

Support