VIOLA: Hacia el Aprendizaje por Contexto en Video con Anotaciones Mínimas

Resumen

La generalización de los Modelos de Lenguaje Grandes Multimodales (MLLMs) a nuevos dominios de vídeo es esencial para su implementación en el mundo real, pero sigue siendo un desafío debido a la escasez de datos etiquetados. Si bien el Aprendizaje en Contexto (ICL) ofrece una vía de adaptación libre de entrenamiento, los métodos estándar dependen de grandes conjuntos de datos anotados, lo que a menudo resulta impracticable en entornos especializados como los industriales o quirúrgicos, ya que requieren anotaciones de expertos. Para salvar esta brecha, presentamos VIOLA (Video In-cOntext Learning with minimal Annotation), un marco eficiente en etiquetas que sinergiza la supervisión mínima de expertos con abundantes datos no etiquetados. En primer lugar, para maximizar la eficiencia de un presupuesto de anotación estricto, proponemos un muestreo ponderado por densidad e incertidumbre. A diferencia de las estrategias estándar de diversidad o incertidumbre, que arriesgan seleccionar valores atípicos visuales, nuestro método aprovecha la estimación de densidad para identificar muestras que son simultáneamente diversas, representativas e informativas. En segundo lugar, para utilizar los datos no etiquetados restantes sin propagar ruido, construimos un conjunto híbrido e introducimos la recuperación consciente de la confianza y el prompting consciente de la confianza. Estos mecanismos modelan explícitamente la fiabilidad de las etiquetas, recuperando demostraciones basadas en una puntuación compuesta de similitud y confianza, a la vez que permiten que el MLLM distinga adaptativamente entre verdades fundamentales verificadas y pseudoetiquetas ruidosas. Experimentos exhaustivos en nueve benchmarks diversos utilizando cuatro MLLMs demuestran que nuestro marco supera significativamente a varias líneas base en entornos de bajos recursos, logrando una adaptación robusta con costes de anotación mínimos.

English

Generalizing Multimodal Large Language Models (MLLMs) to novel video domains is essential for real-world deployment but remains challenging due to the scarcity of labeled data. While In-Context Learning (ICL) offers a training-free adaptation path, standard methods rely on large annotated pools, which are often impractical in specialized environments like industrial or surgical settings since they require the experts' annotations. To bridge this gap, we introduce VIOLA (Video In-cOntext Learning with minimal Annotation), a label-efficient framework that synergizes minimal expert supervision with abundant unlabeled data. First, to maximize the efficiency of a strict annotation budget, we propose density-uncertainty-weighted sampling. Unlike standard diversity or uncertainty strategies that risk selecting visual outliers, our method leverages density estimation to identify samples that are simultaneously diverse, representative, and informative. Second, to utilize the remaining unlabeled data without noise propagation, we construct a hybrid pool and introduce confidence-aware retrieval and confidence-aware prompting. These mechanisms explicitly model label reliability, retrieving demonstrations based on a composite score of similarity and confidence while enabling the MLLM to adaptively distinguish between verified ground truths and noisy pseudo-labels. Extensive experiments across nine diverse benchmarks using four MLLMs demonstrate that our framework significantly outperforms various baselines in low-resource settings, achieving robust adaptation with minimal annotation costs.