ChatPaper.aiChatPaper

Demo-ICL: Aprendizaje en Contexto para la Adquisición de Conocimiento en Videos Procedimentales

Demo-ICL: In-Context Learning for Procedural Video Knowledge Acquisition

February 9, 2026
Autores: Yuhao Dong, Shulin Tian, Shuai Liu, Shuangrui Ding, Yuhang Zang, Xiaoyi Dong, Yuhang Cao, Jiaqi Wang, Ziwei Liu
cs.AI

Resumen

A pesar de las crecientes capacidades de comprensión de video de los recientes Modelos de Lenguaje Grandes Multimodales (MLLMs), los puntos de referencia de video existentes evalúan principalmente la comprensión basándose en el conocimiento estático e interno de los modelos, en lugar de su capacidad para aprender y adaptarse a partir de contextos novedosos y dinámicos con pocos ejemplos. Para cerrar esta brecha, presentamos el Aprendizaje en Contexto para Video impulsado por Demostraciones, una nueva tarea centrada en aprender a partir de demostraciones en contexto para responder preguntas sobre los videos objetivo. Junto con esto, proponemos Demo-ICL-Bench, un punto de referencia desafiante diseñado para evaluar las capacidades de aprendizaje en contexto para video impulsado por demostraciones. Demo-ICL-Bench se construye a partir de 1200 videos instructivos de YouTube con preguntas asociadas, de los cuales se derivan dos tipos de demostraciones: (i) resumir los subtítulos del video para la demostración textual; y (ii) los videos instructivos correspondientes como demostraciones en video. Para abordar efectivamente este nuevo desafío, desarrollamos Demo-ICL, un MLLM con una estrategia de entrenamiento de dos etapas: ajuste fino supervisado por video y optimización directa de preferencias asistida por información, que mejora conjuntamente la capacidad del modelo para aprender a partir de ejemplos en contexto. Experimentos exhaustivos con MLLMs de vanguardia confirman la dificultad de Demo-ICL-Bench, demuestran la efectividad de Demo-ICL y, por lo tanto, revelan futuras direcciones de investigación.
English
Despite the growing video understanding capabilities of recent Multimodal Large Language Models (MLLMs), existing video benchmarks primarily assess understanding based on models' static, internal knowledge, rather than their ability to learn and adapt from dynamic, novel contexts from few examples. To bridge this gap, we present Demo-driven Video In-Context Learning, a novel task focused on learning from in-context demonstrations to answer questions about the target videos. Alongside this, we propose Demo-ICL-Bench, a challenging benchmark designed to evaluate demo-driven video in-context learning capabilities. Demo-ICL-Bench is constructed from 1200 instructional YouTube videos with associated questions, from which two types of demonstrations are derived: (i) summarizing video subtitles for text demonstration; and (ii) corresponding instructional videos as video demonstrations. To effectively tackle this new challenge, we develop Demo-ICL, an MLLM with a two-stage training strategy: video-supervised fine-tuning and information-assisted direct preference optimization, jointly enhancing the model's ability to learn from in-context examples. Extensive experiments with state-of-the-art MLLMs confirm the difficulty of Demo-ICL-Bench, demonstrate the effectiveness of Demo-ICL, and thereby unveil future research directions.
PDF292February 11, 2026