ChatPaper.aiChatPaper

VIOLA: К обучению на контекстных видеопримерах с минимальной разметкой

VIOLA: Towards Video In-Context Learning with Minimal Annotations

January 22, 2026
Авторы: Ryo Fujii, Hideo Saito, Ryo Hachiuma
cs.AI

Аннотация

Обобщение мультимодальных больших языковых моделей (MLLM) на новые видеодомены является ключевым для практического применения, но остается сложной задачей из-за нехватки размеченных данных. Хотя обучение в контексте (In-Context Learning, ICL) предлагает путь адаптации без дообучения, стандартные методы полагаются на большие размеченные наборы данных, что зачастую непрактично в специализированных средах, таких как промышленные или хирургические условия, поскольку требует аннотаций экспертов. Чтобы устранить этот разрыв, мы представляем VIOLA (Video In-cOntext Learning with minimal Annotation) — эффективный по меткам фреймворк, который сочетает минимальный контроль эксперта с обилием немаркированных данных. Во-первых, для максимизации эффективности строго ограниченного бюджета на разметку мы предлагаем выборку, взвешенную по плотности и неопределенности. В отличие от стандартных стратегий, основанных на разнообразии или неопределенности, которые рискуют отбирать визуальные выбросы, наш метод использует оценку плотности для идентификации примеров, которые одновременно разнообразны, репрезентативны и информативны. Во-вторых, чтобы использовать оставшиеся немаркированные данные без распространения шума, мы создаем гибридный пул и вводим уверенно-чувствительное извлечение и уверенно-чувствительное промптирование. Эти механизмы явно моделируют надежность меток, извлекая демонстрации на основе композитной оценки схожести и уверенности, одновременно позволяя MLLM адаптивно различать проверенные истинные метки и зашумленные псевдометки. Многочисленные эксперименты на девяти различных бенчмарках с использованием четырех MLLM демонстрируют, что наш фреймворк значительно превосходит различные базовые методы в условиях с малым объемом данных, достигая надежной адаптации при минимальных затратах на разметку.
English
Generalizing Multimodal Large Language Models (MLLMs) to novel video domains is essential for real-world deployment but remains challenging due to the scarcity of labeled data. While In-Context Learning (ICL) offers a training-free adaptation path, standard methods rely on large annotated pools, which are often impractical in specialized environments like industrial or surgical settings since they require the experts' annotations. To bridge this gap, we introduce VIOLA (Video In-cOntext Learning with minimal Annotation), a label-efficient framework that synergizes minimal expert supervision with abundant unlabeled data. First, to maximize the efficiency of a strict annotation budget, we propose density-uncertainty-weighted sampling. Unlike standard diversity or uncertainty strategies that risk selecting visual outliers, our method leverages density estimation to identify samples that are simultaneously diverse, representative, and informative. Second, to utilize the remaining unlabeled data without noise propagation, we construct a hybrid pool and introduce confidence-aware retrieval and confidence-aware prompting. These mechanisms explicitly model label reliability, retrieving demonstrations based on a composite score of similarity and confidence while enabling the MLLM to adaptively distinguish between verified ground truths and noisy pseudo-labels. Extensive experiments across nine diverse benchmarks using four MLLMs demonstrate that our framework significantly outperforms various baselines in low-resource settings, achieving robust adaptation with minimal annotation costs.
PDF31January 24, 2026