ChatPaper.aiChatPaper

VideoICL:アウト・オブ・ディストリビューション・ビデオ理解のための信頼度に基づくイテレーション・イン・コンテキスト学習

VideoICL: Confidence-based Iterative In-context Learning for Out-of-Distribution Video Understanding

December 3, 2024
著者: Kangsan Kim, Geon Park, Youngwan Lee, Woongyeong Yeo, Sung Ju Hwang
cs.AI

要旨

最近のビデオ大規模多モーダルモデル(LMMs)の進歩により、ビデオの理解と推論能力が大幅に向上しました。しかし、トレーニングデータで十分に表現されていない分布外(OOD)タスクにおいて、その性能が低下することがあります。OODデータセットでのファインチューニングなどの従来の手法は、高い計算コストのため実用的ではありません。一方、デモンストレーション例を用いたインコンテキストラーニング(ICL)は、ファインチューニングを行わずに言語タスクや画像言語タスクにおいて有望な汎化性能を示していますが、ビデオ言語タスクにICLを適用する際には、ビデオLMMsにおける限られたコンテキスト長の制約による課題があります。これらの問題に対処するため、我々は、OODタスク向けの新しいビデオインコンテキストラーニングフレームワークであるVideoICLを提案します。このフレームワークは、類似性に基づいた関連例選択戦略と信頼度に基づいた反復推論アプローチを導入し、最も関連性の高い例を選択し、類似性に基づいてランク付けして推論に使用します。生成された応答の信頼度が低い場合、我々のフレームワークは新しい例を選択し、再度推論を行い、結果を反復的に洗練させ、高い信頼度の応答が得られるまで続けます。このアプローチにより、高いコストをかけることなく効果的なコンテキスト長を拡張し、OODビデオ理解性能を向上させます。複数のベンチマークでの実験結果は、特にドメイン固有のシナリオにおいて顕著な性能向上を示し、より広範なビデオ理解アプリケーションの基盤を築いています。コードは以下のリンクから公開されます:https://github.com/KangsanKim07/VideoICL
English
Recent advancements in video large multimodal models (LMMs) have significantly improved their video understanding and reasoning capabilities. However, their performance drops on out-of-distribution (OOD) tasks that are underrepresented in training data. Traditional methods like fine-tuning on OOD datasets are impractical due to high computational costs. While In-context learning (ICL) with demonstration examples has shown promising generalization performance in language tasks and image-language tasks without fine-tuning, applying ICL to video-language tasks faces challenges due to the limited context length in Video LMMs, as videos require longer token lengths. To address these issues, we propose VideoICL, a novel video in-context learning framework for OOD tasks that introduces a similarity-based relevant example selection strategy and a confidence-based iterative inference approach. This allows to select the most relevant examples and rank them based on similarity, to be used for inference. If the generated response has low confidence, our framework selects new examples and performs inference again, iteratively refining the results until a high-confidence response is obtained. This approach improves OOD video understanding performance by extending effective context length without incurring high costs. The experimental results on multiple benchmarks demonstrate significant performance gains, especially in domain-specific scenarios, laying the groundwork for broader video comprehension applications. Code will be released at https://github.com/KangsanKim07/VideoICL

Summary

AI-Generated Summary

PDF222December 6, 2024