VIOLA: 최소한의 주석을 통한 비디오 인-컨텍스트 러닝을 향하여
VIOLA: Towards Video In-Context Learning with Minimal Annotations
January 22, 2026
저자: Ryo Fujii, Hideo Saito, Ryo Hachiuma
cs.AI
초록
다양한 비디오 영역으로의 다중모달 대규모 언어 모델(MLLM) 일반화는 실제 환경 적용에 필수적이지만, 레이블된 데이터 부족으로 인해 여전히 어려운 과제로 남아 있습니다. 상황 내 학습(ICL)은 추가 훈련 없이 적응할 수 있는 방법을 제공하지만, 기존 방법은 대규모 주석 데이터 풀에 의존하며, 이는 산업 현장이나 수술실 같은 전문 환경에서는 전문가의 주석이 필요하기 때문에 실제로 적용하기 어려운 경우가 많습니다. 이러한 격차를 해소하기 위해 우리는 최소한의 전문가 감독과 풍부한 레이블 없는 데이터를 시너지 효과로 결합하는 레이블 효율 프레임워크인 VIOLA(최소 주석 비디오 상황 내 학습)를 소개합니다. 첫째, 엄격한 주석 예산의 효율을 극대화하기 위해 밀도-불확실성 가중 샘플링을 제안합니다. 시각적 이상치를 선택할 위험이 있는 기존의 다양성이나 불확실성 전략과 달리, 우리의 방법은 밀도 추정을 활용하여 동시에 다양하고, 대표성 있으며, 정보성이 높은 샘플을 식별합니다. 둘째, 잡음 전파 없이 남아 있는 레이블 없는 데이터를 활용하기 위해 하이브리드 풀을 구성하고 신뢰도 인식 검색 및 신뢰도 인식 프롬프팅을 도입합니다. 이러한 메커니즘은 레이블 신뢰도를 명시적으로 모델링하여 유사도와 신뢰도의 복합 점수를 기반으로 데모를 검색하는 동시에 MLLM이 검증된 실제 정답과 잡음이 포함된 의사 레이블을 적응적으로 구분할 수 있도록 합니다. 4가지 MLLM을 사용하여 9개의 다양한 벤치마크에서 수행한 광범위한 실험 결과, 우리의 프레임워크가 저자원 환경에서 다양한 기준선을 크게 능가하며 최소한의 주석 비용으로 강력한 적응력을 달성함을 입증했습니다.
English
Generalizing Multimodal Large Language Models (MLLMs) to novel video domains is essential for real-world deployment but remains challenging due to the scarcity of labeled data. While In-Context Learning (ICL) offers a training-free adaptation path, standard methods rely on large annotated pools, which are often impractical in specialized environments like industrial or surgical settings since they require the experts' annotations. To bridge this gap, we introduce VIOLA (Video In-cOntext Learning with minimal Annotation), a label-efficient framework that synergizes minimal expert supervision with abundant unlabeled data. First, to maximize the efficiency of a strict annotation budget, we propose density-uncertainty-weighted sampling. Unlike standard diversity or uncertainty strategies that risk selecting visual outliers, our method leverages density estimation to identify samples that are simultaneously diverse, representative, and informative. Second, to utilize the remaining unlabeled data without noise propagation, we construct a hybrid pool and introduce confidence-aware retrieval and confidence-aware prompting. These mechanisms explicitly model label reliability, retrieving demonstrations based on a composite score of similarity and confidence while enabling the MLLM to adaptively distinguish between verified ground truths and noisy pseudo-labels. Extensive experiments across nine diverse benchmarks using four MLLMs demonstrate that our framework significantly outperforms various baselines in low-resource settings, achieving robust adaptation with minimal annotation costs.