ChatPaper.aiChatPaper

VIOLA: 最小限のアノテーションによる動画インコンテキスト学習に向けて

VIOLA: Towards Video In-Context Learning with Minimal Annotations

January 22, 2026
著者: Ryo Fujii, Hideo Saito, Ryo Hachiuma
cs.AI

要旨

マルチモーダル大規模言語モデル(MLLM)を新規の動画領域に一般化することは、実世界への展開において不可欠であるが、ラベル付きデータの不足により困難な課題である。インコンテクスト学習(ICL)は訓練不要な適応経路を提供するが、標準的な手法は大規模な注釈付きデータプールに依存しており、産業現場や手術環境などの専門領域では専門家による注釈が必要となるため、実用的でない場合が多い。この隔たりを埋めるため、我々は最小限の専門家監督と豊富な未ラベルデータを統合する、ラベル効率の良いフレームワーク「VIOLA(最小注釈による動画インコンテクスト学習)」を提案する。第一に、厳格な注釈予算の効率を最大化するため、密度-不確実性重み付きサンプリングを提案する。視覚的外れ値を選択するリスクがある標準的な多様性や不確実性戦略とは異なり、本手法は密度推定を活用し、同時に多様性、代表性、情報量に富むサンプルを同定する。第二に、ノイズ伝播を伴わずに残りの未ラベルデータを活用するため、ハイブリッドデータプールを構築し、信頼度考慮型検索と信頼度考慮型プロンプト生成を導入する。これらのメカニズムはラベルの信頼性を明示的にモデル化し、類似度と信頼度の複合スコアに基づいてデモンストレーションを検索するとともに、検証済みグラウンドトゥルースとノイジーな擬似ラベルをMLLMが適応的に区別することを可能にする。4種類のMLLMを用いた9つの多様なベンチマークにおける大規模実験により、本フレームワークが低リソース設定において各種ベースラインを大幅に上回り、最小限の注釈コストでロバストな適応を達成することを実証する。
English
Generalizing Multimodal Large Language Models (MLLMs) to novel video domains is essential for real-world deployment but remains challenging due to the scarcity of labeled data. While In-Context Learning (ICL) offers a training-free adaptation path, standard methods rely on large annotated pools, which are often impractical in specialized environments like industrial or surgical settings since they require the experts' annotations. To bridge this gap, we introduce VIOLA (Video In-cOntext Learning with minimal Annotation), a label-efficient framework that synergizes minimal expert supervision with abundant unlabeled data. First, to maximize the efficiency of a strict annotation budget, we propose density-uncertainty-weighted sampling. Unlike standard diversity or uncertainty strategies that risk selecting visual outliers, our method leverages density estimation to identify samples that are simultaneously diverse, representative, and informative. Second, to utilize the remaining unlabeled data without noise propagation, we construct a hybrid pool and introduce confidence-aware retrieval and confidence-aware prompting. These mechanisms explicitly model label reliability, retrieving demonstrations based on a composite score of similarity and confidence while enabling the MLLM to adaptively distinguish between verified ground truths and noisy pseudo-labels. Extensive experiments across nine diverse benchmarks using four MLLMs demonstrate that our framework significantly outperforms various baselines in low-resource settings, achieving robust adaptation with minimal annotation costs.
PDF31January 24, 2026