VIOLA: Rumo ao Aprendizado por Contexto em Vídeo com Anotações Mínimas

Resumo

A generalização de Modelos de Linguagem Multimodais de Grande Porte (MLLMs) para novos domínios de vídeo é essencial para a implantação no mundo real, mas permanece um desafio devido à escassez de dados rotulados. Embora a Aprendizagem em Contexto (ICL) ofereça um caminho de adaptação sem treinamento, os métodos padrão dependem de grandes conjuntos de dados anotados, que muitas vezes são impraticáveis em ambientes especializados, como configurações industriais ou cirúrgicas, uma vez que exigem anotações de especialistas. Para preencher essa lacuna, apresentamos o VIOLA (Video In-cOntext Learning with minimal Annotation), um framework eficiente em termos de rótulos que sinergiza a supervisão mínima de especialistas com a abundância de dados não rotulados. Primeiro, para maximizar a eficiência de um orçamento estrito de anotação, propomos uma amostragem ponderada por densidade e incerteza. Diferente de estratégias padrão de diversidade ou incerteza que arriscam selecionar valores atípicos visuais, nosso método aproveita a estimativa de densidade para identificar amostras que são simultaneamente diversificadas, representativas e informativas. Segundo, para utilizar os dados não rotulados restantes sem propagação de ruído, construímos um conjunto híbrido e introduzimos a recuperação consciente da confiança e a promptagem consciente da confiança. Esses mecanismos modelam explicitamente a confiabilidade do rótulo, recuperando demonstrações com base em uma pontuação composta de similaridade e confiança, permitindo que o MLLM distinga adaptativamente entre verdades fundamentais verificadas e pseudo-rótulos ruidosos. Experimentos extensos em nove benchmarks diversos usando quatro MLLMs demonstram que nosso framework supera significativamente várias linhas de base em configurações de baixos recursos, alcançando uma adaptação robusta com custos mínimos de anotação.

English

Generalizing Multimodal Large Language Models (MLLMs) to novel video domains is essential for real-world deployment but remains challenging due to the scarcity of labeled data. While In-Context Learning (ICL) offers a training-free adaptation path, standard methods rely on large annotated pools, which are often impractical in specialized environments like industrial or surgical settings since they require the experts' annotations. To bridge this gap, we introduce VIOLA (Video In-cOntext Learning with minimal Annotation), a label-efficient framework that synergizes minimal expert supervision with abundant unlabeled data. First, to maximize the efficiency of a strict annotation budget, we propose density-uncertainty-weighted sampling. Unlike standard diversity or uncertainty strategies that risk selecting visual outliers, our method leverages density estimation to identify samples that are simultaneously diverse, representative, and informative. Second, to utilize the remaining unlabeled data without noise propagation, we construct a hybrid pool and introduce confidence-aware retrieval and confidence-aware prompting. These mechanisms explicitly model label reliability, retrieving demonstrations based on a composite score of similarity and confidence while enabling the MLLM to adaptively distinguish between verified ground truths and noisy pseudo-labels. Extensive experiments across nine diverse benchmarks using four MLLMs demonstrate that our framework significantly outperforms various baselines in low-resource settings, achieving robust adaptation with minimal annotation costs.

VIOLA: Rumo ao Aprendizado por Contexto em Vídeo com Anotações Mínimas

VIOLA: Towards Video In-Context Learning with Minimal Annotations

Resumo

Support