ChatPaper.aiChatPaper

Demo-ICL: 手順動画の知識獲得のためのインコンテキスト学習

Demo-ICL: In-Context Learning for Procedural Video Knowledge Acquisition

February 9, 2026
著者: Yuhao Dong, Shulin Tian, Shuai Liu, Shuangrui Ding, Yuhang Zang, Xiaoyi Dong, Yuhang Cao, Jiaqi Wang, Ziwei Liu
cs.AI

要旨

近年のマルチモーダル大規模言語モデル(MLLM)のビデオ理解能力は急速に発展しているが、既存のビデオベンチマークは主に、モデルの静的な内部知識に基づく理解を評価するものであり、少数の例から動的で新奇な文脈を学習・適応する能力を測るものではない。この課題を解決するため、我々はデモ駆動型ビデオ文脈内学習(Demo-driven Video In-Context Learning)を提案する。これは、文脈内のデモンストレーションから学習し、対象ビデオに関する質問に答える新たなタスクである。同時に、デモ駆動型ビデオ文脈内学習能力を評価するために設計された挑戦的なベンチマーク「Demo-ICL-Bench」を構築した。本ベンチマークは、関連する質問付きの1200本のYouTube教育ビデオから構成され、以下の2種類のデモンストレーションを派生させている:(i)テキストデモ用にビデオ字幕を要約したもの、(ii)ビデオデモとして対応する教育ビデオ。この新たな課題に効果的に取り組むため、我々は2段階の学習戦略(ビデオ教師ありファインチューニングと情報支援型直接選好最適化)を採用したMLLM「Demo-ICL」を開発し、文脈内事例からの学習能力を共同で強化する。先進的なMLLMを用いた大規模な実験により、Demo-ICL-Benchの難易度の高さが確認され、Demo-ICLの有効性が実証された。これにより、将来の研究方向性が明らかとなった。
English
Despite the growing video understanding capabilities of recent Multimodal Large Language Models (MLLMs), existing video benchmarks primarily assess understanding based on models' static, internal knowledge, rather than their ability to learn and adapt from dynamic, novel contexts from few examples. To bridge this gap, we present Demo-driven Video In-Context Learning, a novel task focused on learning from in-context demonstrations to answer questions about the target videos. Alongside this, we propose Demo-ICL-Bench, a challenging benchmark designed to evaluate demo-driven video in-context learning capabilities. Demo-ICL-Bench is constructed from 1200 instructional YouTube videos with associated questions, from which two types of demonstrations are derived: (i) summarizing video subtitles for text demonstration; and (ii) corresponding instructional videos as video demonstrations. To effectively tackle this new challenge, we develop Demo-ICL, an MLLM with a two-stage training strategy: video-supervised fine-tuning and information-assisted direct preference optimization, jointly enhancing the model's ability to learn from in-context examples. Extensive experiments with state-of-the-art MLLMs confirm the difficulty of Demo-ICL-Bench, demonstrate the effectiveness of Demo-ICL, and thereby unveil future research directions.
PDF292February 11, 2026