ChatPaper.aiChatPaper

Demo-ICL: In-Context-Learning für den Erwerb prozeduralen Videowissens

Demo-ICL: In-Context Learning for Procedural Video Knowledge Acquisition

February 9, 2026
papers.authors: Yuhao Dong, Shulin Tian, Shuai Liu, Shuangrui Ding, Yuhang Zang, Xiaoyi Dong, Yuhang Cao, Jiaqi Wang, Ziwei Liu
cs.AI

papers.abstract

Trotz der wachsenden Videoverständnisfähigkeiten aktueller Multimodaler Großer Sprachmodelle (MLLMs) bewerten bestehende Video-Benchmarks primär das Verständnis auf Basis des statischen, internen Wissens der Modelle, anstatt ihrer Fähigkeit, aus dynamischen, neuartigen Kontexten mit wenigen Beispielen zu lernen und sich anzupassen. Um diese Lücke zu schließen, stellen wir Demo-gesteuertes Video-In-Context-Lernen vor, eine neuartige Aufgabe, die sich auf das Lernen aus In-Context-Demonstrationen zur Beantwortung von Fragen zu Zielvideos konzentriert. Dazu schlagen wir Demo-ICL-Bench vor, eine anspruchsvolle Benchmark zur Bewertung von Demo-gesteuerten Video-In-Context-Lernfähigkeiten. Demo-ICL-Bench wurde aus 1200 instruktionalen YouTube-Videos mit zugehörigen Fragen erstellt, aus denen zwei Arten von Demonstrationen abgeleitet werden: (i) die Zusammenfassung von Videountertiteln für Textdemonstrationen und (ii) entsprechende instruktionale Videos als Videodemonstrationen. Um diese neue Herausforderung effektiv zu bewältigen, entwickeln wir Demo-ICL, ein MLLM mit einer Zwei-Phasen-Trainingsstrategie: videoüberwachtes Feintuning und informationsgestützte Direct Preference Optimization, die gemeinsam die Fähigkeit des Modells verbessern, aus In-Context-Beispielen zu lernen. Umfangreiche Experimente mit state-of-the-art MLLMs bestätigen die Schwierigkeit von Demo-ICL-Bench, demonstrieren die Wirksamkeit von Demo-ICL und zeigen damit zukünftige Forschungsrichtungen auf.
English
Despite the growing video understanding capabilities of recent Multimodal Large Language Models (MLLMs), existing video benchmarks primarily assess understanding based on models' static, internal knowledge, rather than their ability to learn and adapt from dynamic, novel contexts from few examples. To bridge this gap, we present Demo-driven Video In-Context Learning, a novel task focused on learning from in-context demonstrations to answer questions about the target videos. Alongside this, we propose Demo-ICL-Bench, a challenging benchmark designed to evaluate demo-driven video in-context learning capabilities. Demo-ICL-Bench is constructed from 1200 instructional YouTube videos with associated questions, from which two types of demonstrations are derived: (i) summarizing video subtitles for text demonstration; and (ii) corresponding instructional videos as video demonstrations. To effectively tackle this new challenge, we develop Demo-ICL, an MLLM with a two-stage training strategy: video-supervised fine-tuning and information-assisted direct preference optimization, jointly enhancing the model's ability to learn from in-context examples. Extensive experiments with state-of-the-art MLLMs confirm the difficulty of Demo-ICL-Bench, demonstrate the effectiveness of Demo-ICL, and thereby unveil future research directions.
PDF292February 11, 2026