VIOLA: Auf dem Weg zu Video-In-Context-Learning mit minimalen Annotationen
VIOLA: Towards Video In-Context Learning with Minimal Annotations
January 22, 2026
papers.authors: Ryo Fujii, Hideo Saito, Ryo Hachiuma
cs.AI
papers.abstract
Die Generalisierung multimodaler großer Sprachmodelle (MLLMs) auf neuartige Videodomänen ist für den realen Einsatz entscheidend, bleibt jedoch aufgrund der Knappheit an annotierten Daten eine Herausforderung. Während In-Context-Learning (ICL) einen trainingsfreien Adaptionspfad bietet, setzen Standardmethoden auf große annotierte Datenpools, die in spezialisierten Umgebungen wie industriellen oder chirurgischen Settings oft unpraktikabel sind, da sie Annotationen durch Experten erfordern. Um diese Lücke zu schließen, stellen wir VIOLA (Video In-cOntext Learning with minimal Annotation) vor, einen label-effizienten Rahmen, der minimale Expertenannotation mit reichlich ungelabelten Daten synergistisch kombiniert. Erstens schlagen wir, um die Effizienz eines strengen Annotationsbudgets zu maximieren, dichte-unsicherheitsgewichtetes Sampling vor. Im Gegensatz zu standardmäßigen Diversitäts- oder Unsicherheitsstrategien, bei denen die Gefahr besteht, visuelle Ausreißer auszuwählen, nutzt unsere Methode Dichteschätzung, um Proben zu identifizieren, die gleichzeitig divers, repräsentativ und informativ sind. Zweitens, um die verbleibenden ungelabelten Daten ohne Rauschen zu nutzen, konstruieren wir einen hybriden Pool und führen konfidenzbewusstes Retrieval und konfidenzbewusstes Prompting ein. Diese Mechanismen modellieren explizit die Zuverlässigkeit von Labels, indem sie Demonstrationen auf Basis eines zusammengesetzten Scores aus Ähnlichkeit und Konfidenz abrufen und es dem MLLM ermöglichen, adaptiv zwischen verifizierten Ground-Truth-Daten und verrauschten Pseudo-Labels zu unterscheiden. Umfangreiche Experimente über neun diverse Benchmarks mit vier MLLMs zeigen, dass unser Rahmenwerk verschiedene Baseline-Methoden in ressourcenbeschränkten Settings signifikant übertrifft und eine robuste Adaptation mit minimalen Annotationskosten erreicht.
English
Generalizing Multimodal Large Language Models (MLLMs) to novel video domains is essential for real-world deployment but remains challenging due to the scarcity of labeled data. While In-Context Learning (ICL) offers a training-free adaptation path, standard methods rely on large annotated pools, which are often impractical in specialized environments like industrial or surgical settings since they require the experts' annotations. To bridge this gap, we introduce VIOLA (Video In-cOntext Learning with minimal Annotation), a label-efficient framework that synergizes minimal expert supervision with abundant unlabeled data. First, to maximize the efficiency of a strict annotation budget, we propose density-uncertainty-weighted sampling. Unlike standard diversity or uncertainty strategies that risk selecting visual outliers, our method leverages density estimation to identify samples that are simultaneously diverse, representative, and informative. Second, to utilize the remaining unlabeled data without noise propagation, we construct a hybrid pool and introduce confidence-aware retrieval and confidence-aware prompting. These mechanisms explicitly model label reliability, retrieving demonstrations based on a composite score of similarity and confidence while enabling the MLLM to adaptively distinguish between verified ground truths and noisy pseudo-labels. Extensive experiments across nine diverse benchmarks using four MLLMs demonstrate that our framework significantly outperforms various baselines in low-resource settings, achieving robust adaptation with minimal annotation costs.