ChatPaper.aiChatPaper

Demo-ICL : Apprentissage en Contexte pour l'Acquisition de Connaissances à partir de Vidéos Procédurales

Demo-ICL: In-Context Learning for Procedural Video Knowledge Acquisition

February 9, 2026
papers.authors: Yuhao Dong, Shulin Tian, Shuai Liu, Shuangrui Ding, Yuhang Zang, Xiaoyi Dong, Yuhang Cao, Jiaqi Wang, Ziwei Liu
cs.AI

papers.abstract

Malgré les capacités croissantes de compréhension vidéo des modèles de langage multimodaux (MLLM) récents, les benchmarks vidéo existants évaluent principalement la compréhension en se basant sur les connaissances statiques internes des modèles, plutôt que sur leur capacité à apprendre et à s'adapter à partir de contextes dynamiques et nouveaux avec peu d'exemples. Pour combler cette lacune, nous présentons l'apprentissage en contexte piloté par des démonstrations vidéo, une nouvelle tâche centrée sur l'apprentissage à partir de démonstrations en contexte pour répondre à des questions sur des vidéos cibles. Parallèlement, nous proposons Demo-ICL-Bench, un benchmark exigeant conçu pour évaluer les capacités d'apprentissage en contexte piloté par des démonstrations vidéo. Demo-ICL-Bench est construit à partir de 1200 vidéos YouTube éducatives avec des questions associées, à partir desquelles deux types de démonstrations sont dérivés : (i) la synthèse des sous-titres vidéo pour une démonstration textuelle ; et (ii) les vidéos éducatives correspondantes comme démonstrations vidéo. Pour relever efficacement ce nouveau défi, nous développons Demo-ICL, un MLLM doté d'une stratégie d'entraînement en deux étapes : un fine-tuning supervisé par la vidéo et une optimisation directe des préférences assistée par l'information, améliorant conjointement la capacité du modèle à apprendre à partir d'exemples en contexte. Des expérimentations approfondies avec des MLLM de pointe confirment la difficulté de Demo-ICL-Bench, démontrent l'efficacité de Demo-ICL et révèlent ainsi des pistes de recherche futures.
English
Despite the growing video understanding capabilities of recent Multimodal Large Language Models (MLLMs), existing video benchmarks primarily assess understanding based on models' static, internal knowledge, rather than their ability to learn and adapt from dynamic, novel contexts from few examples. To bridge this gap, we present Demo-driven Video In-Context Learning, a novel task focused on learning from in-context demonstrations to answer questions about the target videos. Alongside this, we propose Demo-ICL-Bench, a challenging benchmark designed to evaluate demo-driven video in-context learning capabilities. Demo-ICL-Bench is constructed from 1200 instructional YouTube videos with associated questions, from which two types of demonstrations are derived: (i) summarizing video subtitles for text demonstration; and (ii) corresponding instructional videos as video demonstrations. To effectively tackle this new challenge, we develop Demo-ICL, an MLLM with a two-stage training strategy: video-supervised fine-tuning and information-assisted direct preference optimization, jointly enhancing the model's ability to learn from in-context examples. Extensive experiments with state-of-the-art MLLMs confirm the difficulty of Demo-ICL-Bench, demonstrate the effectiveness of Demo-ICL, and thereby unveil future research directions.
PDF292February 11, 2026