VideoICL: Vertrouwensgebaseerd Iteratief In-context Leren voor Video Begrip buiten de Distributie
VideoICL: Confidence-based Iterative In-context Learning for Out-of-Distribution Video Understanding
December 3, 2024
Auteurs: Kangsan Kim, Geon Park, Youngwan Lee, Woongyeong Yeo, Sung Ju Hwang
cs.AI
Samenvatting
Recente ontwikkelingen in video's met grote multimodale modellen (LMM's) hebben aanzienlijk bijgedragen aan hun begrip van video en redeneervermogen. Echter, hun prestaties verminderen bij taken buiten de distributie (OOD) die ondervertegenwoordigd zijn in de trainingsdata. Traditionele methoden zoals fine-tuning op OOD-datasets zijn onpraktisch vanwege hoge computationele kosten. Terwijl In-context learning (ICL) met demonstratievoorbeelden veelbelovende generalisatieprestaties heeft getoond bij taaltaken en beeld-taaltaken zonder fine-tuning, ondervindt het toepassen van ICL op video-taaltaken uitdagingen vanwege de beperkte contextlengte in Video LMM's, aangezien video's langere tokenlengtes vereisen. Om deze problemen aan te pakken, stellen we VideoICL voor, een nieuw video in-context leersysteem voor OOD-taken dat een op gelijkenis gebaseerde relevante voorbeeldselectiestrategie introduceert en een op vertrouwen gebaseerde iteratieve inferentiebenadering. Dit maakt het mogelijk om de meest relevante voorbeelden te selecteren en ze te rangschikken op basis van gelijkenis, om te worden gebruikt voor inferentie. Als de gegenereerde reactie een laag vertrouwen heeft, selecteert ons systeem nieuwe voorbeelden en voert het opnieuw inferentie uit, waarbij de resultaten iteratief worden verfijnd totdat een reactie met hoog vertrouwen wordt verkregen. Deze aanpak verbetert de prestaties van OOD-video-begrip door de effectieve contextlengte te vergroten zonder hoge kosten te veroorzaken. De experimentele resultaten op meerdere benchmarks tonen aanzienlijke prestatieverbeteringen, vooral in domeinspecifieke scenario's, en leggen zo de basis voor bredere toepassingen van video-begrip. De code zal worden vrijgegeven op https://github.com/KangsanKim07/VideoICL
English
Recent advancements in video large multimodal models (LMMs) have
significantly improved their video understanding and reasoning capabilities.
However, their performance drops on out-of-distribution (OOD) tasks that are
underrepresented in training data. Traditional methods like fine-tuning on OOD
datasets are impractical due to high computational costs. While In-context
learning (ICL) with demonstration examples has shown promising generalization
performance in language tasks and image-language tasks without fine-tuning,
applying ICL to video-language tasks faces challenges due to the limited
context length in Video LMMs, as videos require longer token lengths. To
address these issues, we propose VideoICL, a novel video in-context learning
framework for OOD tasks that introduces a similarity-based relevant example
selection strategy and a confidence-based iterative inference approach. This
allows to select the most relevant examples and rank them based on similarity,
to be used for inference. If the generated response has low confidence, our
framework selects new examples and performs inference again, iteratively
refining the results until a high-confidence response is obtained. This
approach improves OOD video understanding performance by extending effective
context length without incurring high costs. The experimental results on
multiple benchmarks demonstrate significant performance gains, especially in
domain-specific scenarios, laying the groundwork for broader video
comprehension applications. Code will be released at
https://github.com/KangsanKim07/VideoICLSummary
AI-Generated Summary