Demo-ICL: Aprendizado em Contexto para Aquisição de Conhecimento em Vídeos Procedimentais

Resumo

Apesar das crescentes capacidades de compreensão de vídeo dos recentes Modelos de Linguagem Multimodais de Grande Porte (MLLMs), os benchmarks de vídeo existentes avaliam principalmente a compreensão com base no conhecimento estático e interno dos modelos, em vez da sua capacidade de aprender e adaptar-se a contextos dinâmicos e novos a partir de poucos exemplos. Para colmatar esta lacuna, apresentamos a Aprendizagem em Contexto de Vídeo Orientada por Demonstrações (Demo-driven Video In-Context Learning), uma nova tarefa focada em aprender a partir de demonstrações em contexto para responder a perguntas sobre os vídeos-alvo. Paralelamente, propomos o Demo-ICL-Bench, um benchmark desafiador concebido para avaliar as capacidades de aprendizagem em contexto de vídeo orientada por demonstrações. O Demo-ICL-Bench é construído a partir de 1200 vídeos instrucionais do YouTube com perguntas associadas, a partir dos quais são derivados dois tipos de demonstrações: (i) resumo das legendas dos vídeos para demonstração textual; e (ii) vídeos instrucionais correspondentes como demonstrações em vídeo. Para enfrentar eficazmente este novo desafio, desenvolvemos o Demo-ICL, um MLLM com uma estratégia de treino em duas etapas: afinação supervisionada por vídeo (video-supervised fine-tuning) e otimização de preferência direta assistida por informação (information-assisted direct preference optimization), melhorando conjuntamente a capacidade do modelo de aprender a partir de exemplos em contexto. Experiências extensivas com MLLMs de última geração confirmam a dificuldade do Demo-ICL-Bench, demonstram a eficácia do Demo-ICL e, assim, revelam direções futuras de investigação.

English

Despite the growing video understanding capabilities of recent Multimodal Large Language Models (MLLMs), existing video benchmarks primarily assess understanding based on models' static, internal knowledge, rather than their ability to learn and adapt from dynamic, novel contexts from few examples. To bridge this gap, we present Demo-driven Video In-Context Learning, a novel task focused on learning from in-context demonstrations to answer questions about the target videos. Alongside this, we propose Demo-ICL-Bench, a challenging benchmark designed to evaluate demo-driven video in-context learning capabilities. Demo-ICL-Bench is constructed from 1200 instructional YouTube videos with associated questions, from which two types of demonstrations are derived: (i) summarizing video subtitles for text demonstration; and (ii) corresponding instructional videos as video demonstrations. To effectively tackle this new challenge, we develop Demo-ICL, an MLLM with a two-stage training strategy: video-supervised fine-tuning and information-assisted direct preference optimization, jointly enhancing the model's ability to learn from in-context examples. Extensive experiments with state-of-the-art MLLMs confirm the difficulty of Demo-ICL-Bench, demonstrate the effectiveness of Demo-ICL, and thereby unveil future research directions.

Demo-ICL: Aprendizado em Contexto para Aquisição de Conhecimento em Vídeos Procedimentais

Demo-ICL: In-Context Learning for Procedural Video Knowledge Acquisition

Resumo

Support