Demo-ICL: 절차적 비디오 지습 획득을 위한 인-컨텍스트 러닝
Demo-ICL: In-Context Learning for Procedural Video Knowledge Acquisition
February 9, 2026
저자: Yuhao Dong, Shulin Tian, Shuai Liu, Shuangrui Ding, Yuhang Zang, Xiaoyi Dong, Yuhang Cao, Jiaqi Wang, Ziwei Liu
cs.AI
초록
최근 멀티모달 대규모 언어 모델(MLLM)의 비디오 이해 능력이 향상되고 있음에도 불구하고, 기존 비디오 벤치마크는 주로 모델의 정적이고 내부적인 지식을 바탕으로 한 이해도를 평가할 뿐, 소수의 예시로부터 동적이고 새로운 맥락을 학습하고 적응하는 능력은 측정하지 못합니다. 이러한 격차를 해소하기 위해 본 연구에서는 인컨텍스트 데모를 학습하여 대상 비디오에 대한 질문에 답변하는 데 중점을 둔 새로운 과제인 데모 주도 비디오 인컨텍스트 학습을 제시합니다. 동시에 데모 기반 비디오 인컨텍스트 학습 능력을 평가하기 위해 설계된 도전적인 벤치마크인 Demo-ICL-Bench를 제안합니다. Demo-ICL-Bench는 관련 질문이 포함된 1,200개의 YouTube 교육용 비디오로부터 구성되었으며, 여기서 두 가지 유형의 데모가 파생됩니다: (i) 텍스트 데모를 위한 비디오 자막 요약; (ii) 비디오 데모로서의 대응 교육용 비디오. 이 새로운 도전 과제를 효과적으로 해결하기 위해 2단계 학습 전략(비디오 지도 미세 조정 및 정보 지원 직접 선호도 최적화)을 갖춘 MLLM인 Demo-ICL을 개발하였으며, 이는 공동으로 모델의 인컨텍스트 예시 학습 능력을 향상시킵니다. 최첨단 MLLM을 이용한 폭넓은 실험을 통해 Demo-ICL-Bench의 어려움을 확인하고, Demo-ICL의 효과성을 입증함으로써 향후 연구 방향을 제시합니다.
English
Despite the growing video understanding capabilities of recent Multimodal Large Language Models (MLLMs), existing video benchmarks primarily assess understanding based on models' static, internal knowledge, rather than their ability to learn and adapt from dynamic, novel contexts from few examples. To bridge this gap, we present Demo-driven Video In-Context Learning, a novel task focused on learning from in-context demonstrations to answer questions about the target videos. Alongside this, we propose Demo-ICL-Bench, a challenging benchmark designed to evaluate demo-driven video in-context learning capabilities. Demo-ICL-Bench is constructed from 1200 instructional YouTube videos with associated questions, from which two types of demonstrations are derived: (i) summarizing video subtitles for text demonstration; and (ii) corresponding instructional videos as video demonstrations. To effectively tackle this new challenge, we develop Demo-ICL, an MLLM with a two-stage training strategy: video-supervised fine-tuning and information-assisted direct preference optimization, jointly enhancing the model's ability to learn from in-context examples. Extensive experiments with state-of-the-art MLLMs confirm the difficulty of Demo-ICL-Bench, demonstrate the effectiveness of Demo-ICL, and thereby unveil future research directions.