ChatPaper.aiChatPaper

CoS: 長時間ビデオ理解のためのショット連鎖プロンプティング

CoS: Chain-of-Shot Prompting for Long Video Understanding

February 10, 2025
著者: Jian Hu, Zixu Cheng, Chenyang Si, Wei Li, Shaogang Gong
cs.AI

要旨

マルチモーダル大規模言語モデル(MLLMs)は、長いビデオに対して過剰なビジュアルトークンが必要となるため、苦労しています。これらのトークンはMLLMsのコンテキスト長を大幅に超え、冗長なタスクに関係のないショットで満たされる結果となります。ショットの選択方法は未解決の重要な問題です。まばらなサンプリングは重要な詳細を見逃すリスクがあり、徹底的なサンプリングはモデルを無関係なコンテンツで圧倒し、ビデオの誤解を招きます。この問題を解決するために、私たちはショットの連鎖提示(CoS)を提案します。その主要なアイデアは、ショットの選択をテスト時の視覚的なプロンプト最適化としてフレーム化し、ビデオ理解の意味的タスクに適応したショット-タスクの整合性を最適化することです。CoSには2つの主要な部分があります:(1)擬似的な時間的な基盤を行うバイナリビデオサマリーメカニズムは、タスクに関連するショットを特定するためのバイナリコーディングを発見し、(2)ビデオ共同推論モジュールは、タスクに関連するポジティブなショットと無関係なネガティブなショットをペアにする(整列学習)ためにバイナリコーディングを展開します。最適化されたショット選択を元のビデオに埋め込むことで、長いビデオ理解を最適化するための関連するコンテキストに焦点を当てます。3つのベースラインと5つのデータセットを対象とした実験は、CoSの効果と適応性を示しています。コードはhttps://lwpyh.github.io/CoSにあります。
English
Multi-modal Large Language Models (MLLMs) struggle with long videos due to the need for excessive visual tokens. These tokens exceed massively the context length of MLLMs, resulting in filled by redundant task-irrelevant shots. How to select shots is an unsolved critical problem: sparse sampling risks missing key details, while exhaustive sampling overwhelms the model with irrelevant content, leading to video misunderstanding. To solve this problem, we propose Chain-of-Shot prompting (CoS). The key idea is to frame shot selection as test-time visual prompt optimisation, choosing shots adaptive to video understanding semantic task by optimising shots-task alignment. CoS has two key parts: (1) a binary video summary mechanism that performs pseudo temporal grounding, discovering a binary coding to identify task-relevant shots, and (2) a video co-reasoning module that deploys the binary coding to pair (learning to align) task-relevant positive shots with irrelevant negative shots. It embeds the optimised shot selections into the original video, facilitating a focus on relevant context to optimize long video understanding. Experiments across three baselines and five datasets demonstrate the effectiveness and adaptability of CoS. Code given in https://lwpyh.github.io/CoS.

Summary

AI-Generated Summary

PDF102February 12, 2025