비디오 속 모든 것 캡션화: 시공간적 멀티모달 프롬프팅을 통한 세밀한 객체 중심 캡션 생성
Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting
April 7, 2025
저자: Yunlong Tang, Jing Bi, Chao Huang, Susan Liang, Daiki Shimada, Hang Hua, Yunzhong Xiao, Yizhi Song, Pinxin Liu, Mingqian Feng, Junjia Guo, Zhuo Liu, Luchuan Song, Ali Vosoughi, Jinxi He, Liu He, Zeliang Zhang, Jiebo Luo, Chenliang Xu
cs.AI
초록
우리는 사용자가 선택한 객체에 대한 시간 경과에 따른 세부적인 설명을 가능하게 하는 훈련이 필요 없는 프레임워크인 CAT-V(Caption AnyThing in Video)를 소개한다. CAT-V는 세 가지 핵심 구성 요소를 통합한다: SAMURAI 기반의 Segmenter를 통해 프레임 간 정확한 객체 분할을 수행하고, TRACE-Uni 기반의 Temporal Analyzer로 정확한 이벤트 경계 탐지 및 시간적 분석을 수행하며, InternVL-2.5 기반의 Captioner를 사용하여 객체 중심의 세부 설명을 생성한다. 시공간적 시각적 프롬프트와 사고의 연쇄적 추론을 통해, 우리의 프레임워크는 추가 훈련 데이터 없이도 객체의 속성, 행동, 상태, 상호작용 및 환경적 맥락에 대한 시간적 인식이 포함된 세부 설명을 생성한다. CAT-V는 다양한 시각적 프롬프트(점, 경계 상자, 불규칙 영역)를 통해 유연한 사용자 상호작용을 지원하며, 서로 다른 시간 구간에서 객체 상태와 상호작용을 추적함으로써 시간적 민감도를 유지한다. 우리의 접근 방식은 기존 비디오 캡셔닝 방법의 한계를 해결하는데, 이는 지나치게 추상적인 설명을 생성하거나 객체 수준의 정밀도가 부족한 문제를 해결하며, 시간적 일관성과 공간적 정확성을 유지하면서 세밀하고 객체 특화된 설명을 가능하게 한다. 이 프로젝트의 GitHub 저장소는 https://github.com/yunlong10/CAT-V에서 확인할 수 있다.
English
We present CAT-V (Caption AnyThing in Video), a training-free framework for
fine-grained object-centric video captioning that enables detailed descriptions
of user-selected objects through time. CAT-V integrates three key components: a
Segmenter based on SAMURAI for precise object segmentation across frames, a
Temporal Analyzer powered by TRACE-Uni for accurate event boundary detection
and temporal analysis, and a Captioner using InternVL-2.5 for generating
detailed object-centric descriptions. Through spatiotemporal visual prompts and
chain-of-thought reasoning, our framework generates detailed, temporally-aware
descriptions of objects' attributes, actions, statuses, interactions, and
environmental contexts without requiring additional training data. CAT-V
supports flexible user interactions through various visual prompts (points,
bounding boxes, and irregular regions) and maintains temporal sensitivity by
tracking object states and interactions across different time segments. Our
approach addresses limitations of existing video captioning methods, which
either produce overly abstract descriptions or lack object-level precision,
enabling fine-grained, object-specific descriptions while maintaining temporal
coherence and spatial accuracy. The GitHub repository for this project is
available at https://github.com/yunlong10/CAT-VSummary
AI-Generated Summary