VideoICL: Aprendizaje Iterativo en Contexto basado en Confianza para la Comprensión de Videos Fuera de Distribución
VideoICL: Confidence-based Iterative In-context Learning for Out-of-Distribution Video Understanding
December 3, 2024
Autores: Kangsan Kim, Geon Park, Youngwan Lee, Woongyeong Yeo, Sung Ju Hwang
cs.AI
Resumen
Los recientes avances en modelos multimodales grandes de video (LMMs, por sus siglas en inglés) han mejorado significativamente sus capacidades de comprensión y razonamiento de video. Sin embargo, su rendimiento disminuye en tareas fuera de distribución (OOD) que están subrepresentadas en los datos de entrenamiento. Métodos tradicionales como el ajuste fino en conjuntos de datos OOD son imprácticos debido a los altos costos computacionales. Mientras que el aprendizaje en contexto (ICL) con ejemplos de demostración ha mostrado un rendimiento de generalización prometedor en tareas de lenguaje y tareas de imagen-lenguaje sin ajuste fino, aplicar ICL a tareas de video-lenguaje enfrenta desafíos debido a la longitud limitada del contexto en los LMMs de video, ya que los videos requieren longitudes de token más largas. Para abordar estos problemas, proponemos VideoICL, un nuevo marco de aprendizaje en contexto de video para tareas OOD que introduce una estrategia de selección de ejemplos relevantes basada en similitud y un enfoque de inferencia iterativo basado en la confianza. Esto permite seleccionar los ejemplos más relevantes y clasificarlos según su similitud, para ser utilizados en la inferencia. Si la respuesta generada tiene una baja confianza, nuestro marco selecciona nuevos ejemplos y realiza nuevamente la inferencia, refinando iterativamente los resultados hasta obtener una respuesta de alta confianza. Este enfoque mejora el rendimiento de comprensión de video OOD al extender la longitud efectiva del contexto sin incurrir en altos costos. Los resultados experimentales en múltiples benchmarks demuestran ganancias de rendimiento significativas, especialmente en escenarios específicos de dominio, sentando las bases para aplicaciones de comprensión de video más amplias. El código será publicado en https://github.com/KangsanKim07/VideoICL
English
Recent advancements in video large multimodal models (LMMs) have
significantly improved their video understanding and reasoning capabilities.
However, their performance drops on out-of-distribution (OOD) tasks that are
underrepresented in training data. Traditional methods like fine-tuning on OOD
datasets are impractical due to high computational costs. While In-context
learning (ICL) with demonstration examples has shown promising generalization
performance in language tasks and image-language tasks without fine-tuning,
applying ICL to video-language tasks faces challenges due to the limited
context length in Video LMMs, as videos require longer token lengths. To
address these issues, we propose VideoICL, a novel video in-context learning
framework for OOD tasks that introduces a similarity-based relevant example
selection strategy and a confidence-based iterative inference approach. This
allows to select the most relevant examples and rank them based on similarity,
to be used for inference. If the generated response has low confidence, our
framework selects new examples and performs inference again, iteratively
refining the results until a high-confidence response is obtained. This
approach improves OOD video understanding performance by extending effective
context length without incurring high costs. The experimental results on
multiple benchmarks demonstrate significant performance gains, especially in
domain-specific scenarios, laying the groundwork for broader video
comprehension applications. Code will be released at
https://github.com/KangsanKim07/VideoICLSummary
AI-Generated Summary