Demo-ICL: Контекстное обучение для получения процедурных знаний из видео
Demo-ICL: In-Context Learning for Procedural Video Knowledge Acquisition
February 9, 2026
Авторы: Yuhao Dong, Shulin Tian, Shuai Liu, Shuangrui Ding, Yuhang Zang, Xiaoyi Dong, Yuhang Cao, Jiaqi Wang, Ziwei Liu
cs.AI
Аннотация
Несмотря на растущие возможности современных мультимодальных больших языковых моделей (MLLM) в понимании видео, существующие бенчмарки в основном оценивают понимание на основе статического внутреннего знания моделей, а не их способности обучаться и адаптироваться к динамическим новым контекстам по ограниченному числу примеров. Для преодоления этого разрыва мы представляем демонстрационное обучение видео в контексте (Demo-driven Video In-Context Learning) — новую задачу, сфокусированную на обучении по контекстным демонстрациям для ответов на вопросы о целевых видео. Параллельно мы предлагаем Demo-ICL-Bench — сложный бенчмарк, разработанный для оценки способностей к демонстрационному обучению видео в контексте. Demo-ICL-Bench создан на основе 1200 обучающих видео с YouTube с сопутствующими вопросами, из которых получены два типа демонстраций: (i) суммаризация субтитров видео для текстовых демонстраций; и (ii) соответствующие обучающие видео в качестве видеодемонстраций. Для эффективного решения этой новой задачи мы разработали Demo-ICL — MLLM с двухэтапной стратегией обучения: видео-контролируемым тонким настроением и оптимизацией прямых предпочтений с информационной поддержкой, что совместно усиливает способность модели обучаться на контекстных примерах. Масштабные эксперименты с передовыми MLLM подтверждают сложность Demo-ICL-Bench, демонстрируют эффективность Demo-ICL и тем самым открывают перспективные направления для будущих исследований.
English
Despite the growing video understanding capabilities of recent Multimodal Large Language Models (MLLMs), existing video benchmarks primarily assess understanding based on models' static, internal knowledge, rather than their ability to learn and adapt from dynamic, novel contexts from few examples. To bridge this gap, we present Demo-driven Video In-Context Learning, a novel task focused on learning from in-context demonstrations to answer questions about the target videos. Alongside this, we propose Demo-ICL-Bench, a challenging benchmark designed to evaluate demo-driven video in-context learning capabilities. Demo-ICL-Bench is constructed from 1200 instructional YouTube videos with associated questions, from which two types of demonstrations are derived: (i) summarizing video subtitles for text demonstration; and (ii) corresponding instructional videos as video demonstrations. To effectively tackle this new challenge, we develop Demo-ICL, an MLLM with a two-stage training strategy: video-supervised fine-tuning and information-assisted direct preference optimization, jointly enhancing the model's ability to learn from in-context examples. Extensive experiments with state-of-the-art MLLMs confirm the difficulty of Demo-ICL-Bench, demonstrate the effectiveness of Demo-ICL, and thereby unveil future research directions.