動画内のあらゆるものをキャプション化:時空間的マルチモーダルプロンプティングによる細粒度オブジェクト中心キャプショニング
Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting
April 7, 2025
著者: Yunlong Tang, Jing Bi, Chao Huang, Susan Liang, Daiki Shimada, Hang Hua, Yunzhong Xiao, Yizhi Song, Pinxin Liu, Mingqian Feng, Junjia Guo, Zhuo Liu, Luchuan Song, Ali Vosoughi, Jinxi He, Liu He, Zeliang Zhang, Jiebo Luo, Chenliang Xu
cs.AI
要旨
本論文では、CAT-V(Caption AnyThing in Video)を提案します。これは、ユーザーが選択したオブジェクトの詳細な記述を時間軸に沿って可能にする、トレーニング不要の細粒度オブジェクト中心ビデオキャプションフレームワークです。CAT-Vは、3つの主要コンポーネントを統合しています:SAMURAIに基づくセグメンターによるフレーム間の正確なオブジェクトセグメンテーション、TRACE-Uniを活用したテンポラルアナライザーによる正確なイベント境界検出と時間分析、そしてInternVL-2.5を使用したキャプショナーによる詳細なオブジェクト中心の記述生成です。時空間的ビジュアルプロンプトと連鎖的思考推論を通じて、本フレームワークは追加のトレーニングデータを必要とせずに、オブジェクトの属性、動作、状態、相互作用、環境コンテキストの詳細かつ時間を意識した記述を生成します。CAT-Vは、様々なビジュアルプロンプト(ポイント、バウンディングボックス、不規則な領域)を通じた柔軟なユーザーインタラクションをサポートし、異なる時間セグメントにわたるオブジェクトの状態と相互作用を追跡することで時間的感度を維持します。本アプローチは、既存のビデオキャプションメソッドの限界、すなわち過度に抽象的な記述を生成するか、オブジェクトレベルの精度を欠くという問題に対処し、時間的整合性と空間的精度を維持しながら、細粒度でオブジェクト固有の記述を可能にします。本プロジェクトのGitHubリポジトリは、https://github.com/yunlong10/CAT-V で公開されています。
English
We present CAT-V (Caption AnyThing in Video), a training-free framework for
fine-grained object-centric video captioning that enables detailed descriptions
of user-selected objects through time. CAT-V integrates three key components: a
Segmenter based on SAMURAI for precise object segmentation across frames, a
Temporal Analyzer powered by TRACE-Uni for accurate event boundary detection
and temporal analysis, and a Captioner using InternVL-2.5 for generating
detailed object-centric descriptions. Through spatiotemporal visual prompts and
chain-of-thought reasoning, our framework generates detailed, temporally-aware
descriptions of objects' attributes, actions, statuses, interactions, and
environmental contexts without requiring additional training data. CAT-V
supports flexible user interactions through various visual prompts (points,
bounding boxes, and irregular regions) and maintains temporal sensitivity by
tracking object states and interactions across different time segments. Our
approach addresses limitations of existing video captioning methods, which
either produce overly abstract descriptions or lack object-level precision,
enabling fine-grained, object-specific descriptions while maintaining temporal
coherence and spatial accuracy. The GitHub repository for this project is
available at https://github.com/yunlong10/CAT-VSummary
AI-Generated Summary