ChatPaper.aiChatPaper

VIOLA : Vers l'apprentissage en contexte vidéo avec annotations minimales

VIOLA: Towards Video In-Context Learning with Minimal Annotations

January 22, 2026
papers.authors: Ryo Fujii, Hideo Saito, Ryo Hachiuma
cs.AI

papers.abstract

La généralisation des grands modèles de langage multimodaux (MLLM) à de nouveaux domaines vidéo est essentielle pour leur déploiement en conditions réelles, mais reste difficile en raison de la rareté des données annotées. Si l'apprentissage en contexte (ICL) offre une voie d'adaptation sans entraînement, les méthodes standard reposent sur de grands ensembles annotés, souvent impraticables dans des environnements spécialisés comme les contextes industriels ou chirurgicaux car ils nécessitent l'expertise d'annotateurs spécialisés. Pour combler cette lacune, nous présentons VIOLA (Video In-cOntext Learning with minimal Annotation), un cadre efficace en annotation qui associe une supervision experte minimale à des données non labellisées abondantes. Premièrement, pour maximiser l'efficacité d'un budget d'annotation strict, nous proposons un échantillonnage pondéré par l'incertitude et la densité. Contrairement aux stratégies standard de diversité ou d'incertitude qui risquent de sélectionner des valeurs aberrantes visuelles, notre méthode utilise l'estimation de densité pour identifier des échantillons à la fois diversifiés, représentatifs et informatifs. Deuxièmement, pour exploiter les données non labellisées restantes sans propager le bruit, nous construisons un pool hybride et introduisons un système de récupération et d'incitation conscient de la confiance. Ces mécanismes modélisent explicitement la fiabilité des étiquettes, en récupérant des démonstrations basées sur un score composite de similarité et de confiance, tout en permettant au MLLM de distinguer de manière adaptative les vérités terrain vérifiées des pseudo-étiquettes bruitées. Des expériences approfondies sur neuf benchmarks diversifiés utilisant quatre MLLM démontrent que notre cadre surpasse significativement diverses méthodes de référence dans des contextes pauvres en ressources, atteignant une adaptation robuste avec des coûts d'annotation minimaux.
English
Generalizing Multimodal Large Language Models (MLLMs) to novel video domains is essential for real-world deployment but remains challenging due to the scarcity of labeled data. While In-Context Learning (ICL) offers a training-free adaptation path, standard methods rely on large annotated pools, which are often impractical in specialized environments like industrial or surgical settings since they require the experts' annotations. To bridge this gap, we introduce VIOLA (Video In-cOntext Learning with minimal Annotation), a label-efficient framework that synergizes minimal expert supervision with abundant unlabeled data. First, to maximize the efficiency of a strict annotation budget, we propose density-uncertainty-weighted sampling. Unlike standard diversity or uncertainty strategies that risk selecting visual outliers, our method leverages density estimation to identify samples that are simultaneously diverse, representative, and informative. Second, to utilize the remaining unlabeled data without noise propagation, we construct a hybrid pool and introduce confidence-aware retrieval and confidence-aware prompting. These mechanisms explicitly model label reliability, retrieving demonstrations based on a composite score of similarity and confidence while enabling the MLLM to adaptively distinguish between verified ground truths and noisy pseudo-labels. Extensive experiments across nine diverse benchmarks using four MLLMs demonstrate that our framework significantly outperforms various baselines in low-resource settings, achieving robust adaptation with minimal annotation costs.
PDF31January 24, 2026