Demo-ICL: In-Context Leren voor Procedurele Videokennisverwerving

Samenvatting

Ondanks de groeiende video-inzichtcapaciteiten van recente Multimodale Grote Taalmodellen (MLLM's), beoordelen bestaande videobenchmarks voornamelijk het begrip op basis van de statische, interne kennis van modellen, in plaats van hun vermogen om te leren en zich aan te passen aan dynamische, nieuwe contexten aan de hand van enkele voorbeelden. Om deze kloof te overbruggen, presenteren wij Demo-gedreven Video In-Context Leren, een nieuwe taak die gericht is op leren vanuit in-context demonstraties om vragen over doeldvideo's te beantwoorden. Hiernaast stellen we Demo-ICL-Bench voor, een uitdagende benchmark die ontworpen is om demo-gedreven video in-context leercapaciteiten te evalueren. Demo-ICL-Bench is samengesteld uit 1200 instructieve YouTube-video's met bijbehorende vragen, waaruit twee soorten demonstraties worden afgeleid: (i) het samenvatten van videobijschriften voor tekstuele demonstratie; en (ii) corresponderende instructievideo's als videodemonstraties. Om deze nieuwe uitdaging effectief aan te pakken, ontwikkelen we Demo-ICL, een MLLM met een tweefasige trainingsstrategie: video-gestuurd fine-tuning en informatie-ondersteunde directe voorkeursoptimalisatie, die gezamenlijk het vermogen van het model om te leren vanuit in-context voorbeelden verbeteren. Uitgebreide experimenten met state-of-the-art MLLM's bevestigen de moeilijkheidsgraad van Demo-ICL-Bench, tonen de effectiviteit van Demo-ICL aan, en onthullen daarmee toekomstige onderzoeksrichtingen.

English

Despite the growing video understanding capabilities of recent Multimodal Large Language Models (MLLMs), existing video benchmarks primarily assess understanding based on models' static, internal knowledge, rather than their ability to learn and adapt from dynamic, novel contexts from few examples. To bridge this gap, we present Demo-driven Video In-Context Learning, a novel task focused on learning from in-context demonstrations to answer questions about the target videos. Alongside this, we propose Demo-ICL-Bench, a challenging benchmark designed to evaluate demo-driven video in-context learning capabilities. Demo-ICL-Bench is constructed from 1200 instructional YouTube videos with associated questions, from which two types of demonstrations are derived: (i) summarizing video subtitles for text demonstration; and (ii) corresponding instructional videos as video demonstrations. To effectively tackle this new challenge, we develop Demo-ICL, an MLLM with a two-stage training strategy: video-supervised fine-tuning and information-assisted direct preference optimization, jointly enhancing the model's ability to learn from in-context examples. Extensive experiments with state-of-the-art MLLMs confirm the difficulty of Demo-ICL-Bench, demonstrate the effectiveness of Demo-ICL, and thereby unveil future research directions.

Demo-ICL: In-Context Leren voor Procedurele Videokennisverwerving

Demo-ICL: In-Context Learning for Procedural Video Knowledge Acquisition

Samenvatting

Support