ChatPaper.aiChatPaper

Описание всего в видео: детализированное объектно-ориентированное описание с помощью пространственно-временного мультимодального промптинга

Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting

April 7, 2025
Авторы: Yunlong Tang, Jing Bi, Chao Huang, Susan Liang, Daiki Shimada, Hang Hua, Yunzhong Xiao, Yizhi Song, Pinxin Liu, Mingqian Feng, Junjia Guo, Zhuo Liu, Luchuan Song, Ali Vosoughi, Jinxi He, Liu He, Zeliang Zhang, Jiebo Luo, Chenliang Xu
cs.AI

Аннотация

Мы представляем CAT-V (Caption AnyThing in Video) — обучение-независимую структуру для детализированного объектно-ориентированного описания видео, которая позволяет создавать подробные описания выбранных пользователем объектов с течением времени. CAT-V объединяет три ключевых компонента: Сегментатор на основе SAMURAI для точного выделения объектов на кадрах, Временной Анализатор, работающий на базе TRACE-Uni для точного определения границ событий и временного анализа, и Описатель, использующий InternVL-2.5 для генерации детализированных объектно-ориентированных описаний. Благодаря пространственно-временным визуальным подсказкам и цепочке рассуждений, наша структура создает подробные, временно-осознанные описания атрибутов, действий, состояний, взаимодействий и контекстов окружающей среды объектов без необходимости дополнительных обучающих данных. CAT-V поддерживает гибкое взаимодействие с пользователем через различные визуальные подсказки (точки, ограничивающие рамки и неправильные области) и сохраняет временную чувствительность, отслеживая состояния и взаимодействия объектов на разных временных отрезках. Наш подход устраняет ограничения существующих методов описания видео, которые либо создают слишком абстрактные описания, либо не обладают точностью на уровне объектов, обеспечивая детализированные, объектно-специфичные описания с сохранением временной согласованности и пространственной точности. Репозиторий GitHub для этого проекта доступен по адресу https://github.com/yunlong10/CAT-V.
English
We present CAT-V (Caption AnyThing in Video), a training-free framework for fine-grained object-centric video captioning that enables detailed descriptions of user-selected objects through time. CAT-V integrates three key components: a Segmenter based on SAMURAI for precise object segmentation across frames, a Temporal Analyzer powered by TRACE-Uni for accurate event boundary detection and temporal analysis, and a Captioner using InternVL-2.5 for generating detailed object-centric descriptions. Through spatiotemporal visual prompts and chain-of-thought reasoning, our framework generates detailed, temporally-aware descriptions of objects' attributes, actions, statuses, interactions, and environmental contexts without requiring additional training data. CAT-V supports flexible user interactions through various visual prompts (points, bounding boxes, and irregular regions) and maintains temporal sensitivity by tracking object states and interactions across different time segments. Our approach addresses limitations of existing video captioning methods, which either produce overly abstract descriptions or lack object-level precision, enabling fine-grained, object-specific descriptions while maintaining temporal coherence and spatial accuracy. The GitHub repository for this project is available at https://github.com/yunlong10/CAT-V

Summary

AI-Generated Summary

PDF161April 10, 2025