VIOLA: Naar Video In-Context Leren met Minimale Annotaties

Samenvatting

Het generaliseren van Multimodale Large Language Models (MLLM's) naar nieuwe videodomeinen is essentieel voor praktijkimplementatie, maar blijft een uitdaging door de schaarste aan gelabelde data. Hoewel In-Context Learning (ICL) een trainingsvrije aanpassingsroute biedt, zijn standaardmethoden afhankelijk van grote geannoteerde datasets, die vaak onpraktisch zijn in gespecialiseerde omgevingen zoals industriële of chirurgische settings vanwege de vereiste expertannotaties. Om deze kloof te overbruggen, introduceren we VIOLA (Video In-cOntext Learning with minimal Annotation), een label-efficiënt raamwerk dat minimale expertsupervisie combineert met overvloedige ongelabelde data. Ten eerste, om de efficiëntie van een strikt annotatiebudget te maximaliseren, stellen we density-uncertainty-weighted sampling voor. In tegenstelling tot standaard diversiteits- of onzekerheidsstrategieën die het risico lopen visuele uitschieters te selecteren, benut onze methode dichtheidsschatting om samples te identificeren die simultaan divers, representatief en informatief zijn. Ten tweede, om de overige ongelabelde data te benutten zonder ruispropagatie, construeren we een hybride dataset en introduceren we confidence-aware retrieval en confidence-aware prompting. Deze mechanismen modelleren expliciet de betrouwbaarheid van labels, waarbij demonstraties worden opgehaald op basis van een samengestelde score van gelijkenis en betrouwbaarheid, terwijl de MLLM in staat wordt gesteld adaptief onderscheid te maken tussen geverifieerde grondwaarden en ruizige pseudo-labels. Uitgebreide experimenten over negen diverse benchmarks met vier MLLM's tonen aan dat ons raamwerk verschillende baseline-methoden significant overtreft in low-resource settings, en robuuste aanpassing bereikt tegen minimale annotatiekosten.

English

Generalizing Multimodal Large Language Models (MLLMs) to novel video domains is essential for real-world deployment but remains challenging due to the scarcity of labeled data. While In-Context Learning (ICL) offers a training-free adaptation path, standard methods rely on large annotated pools, which are often impractical in specialized environments like industrial or surgical settings since they require the experts' annotations. To bridge this gap, we introduce VIOLA (Video In-cOntext Learning with minimal Annotation), a label-efficient framework that synergizes minimal expert supervision with abundant unlabeled data. First, to maximize the efficiency of a strict annotation budget, we propose density-uncertainty-weighted sampling. Unlike standard diversity or uncertainty strategies that risk selecting visual outliers, our method leverages density estimation to identify samples that are simultaneously diverse, representative, and informative. Second, to utilize the remaining unlabeled data without noise propagation, we construct a hybrid pool and introduce confidence-aware retrieval and confidence-aware prompting. These mechanisms explicitly model label reliability, retrieving demonstrations based on a composite score of similarity and confidence while enabling the MLLM to adaptively distinguish between verified ground truths and noisy pseudo-labels. Extensive experiments across nine diverse benchmarks using four MLLMs demonstrate that our framework significantly outperforms various baselines in low-resource settings, achieving robust adaptation with minimal annotation costs.

VIOLA: Naar Video In-Context Leren met Minimale Annotaties

VIOLA: Towards Video In-Context Learning with Minimal Annotations

Samenvatting

Support