TimeChat-Captioner: 時間認識と構造化された音声視覚キャプションによるマルチシーン動画のスクリプト生成

要旨

本論文は、明示的なタイムスタンプ付きで、連続的かつ細粒度な構造化された視聴覚ナレーションを生成する新しいタスク「Omni Dense Captioning」を提案する。高密度な意味的カバレッジを保証するため、映像コンテンツを映画脚本のように場面ごとに鮮明に想像できる「脚本風」キャプションを作成する6次元構造スキーマを導入する。研究促進のため、高品質な人手注釈ベンチマーク「OmniDCBench」を構築し、シーン境界の曖昧さを軽減しながら時間認識型詳細記述を評価する統一指標「SodaM」を提案する。さらに、訓練データセット「TimeChatCap-42K」を構築し、タスク特化型報酬を用いたSFTとGRPOで学習した強力なベースライン「TimeChat-Captioner-7B」を提示する。大規模実験により、TimeChat-Captioner-7BがGemini-2.5-Proを上回る最高性能を達成し、その生成する高密度記述が視聴覚推論（DailyOmniおよびWorldSense）および時間的グラウンディング（Charades-STA）の下流タスク能力を大幅に向上させることを実証する。全データセット、モデル、コードはhttps://github.com/yaolinli/TimeChat-Captioner で公開予定である。

English

This paper proposes Omni Dense Captioning, a novel task designed to generate continuous, fine-grained, and structured audio-visual narratives with explicit timestamps. To ensure dense semantic coverage, we introduce a six-dimensional structural schema to create "script-like" captions, enabling readers to vividly imagine the video content scene by scene, akin to a cinematographic screenplay. To facilitate research, we construct OmniDCBench, a high-quality, human-annotated benchmark, and propose SodaM, a unified metric that evaluates time-aware detailed descriptions while mitigating scene boundary ambiguity. Furthermore, we construct a training dataset, TimeChatCap-42K, and present TimeChat-Captioner-7B, a strong baseline trained via SFT and GRPO with task-specific rewards. Extensive experiments demonstrate that TimeChat-Captioner-7B achieves state-of-the-art performance, surpassing Gemini-2.5-Pro, while its generated dense descriptions significantly boost downstream capabilities in audio-visual reasoning (DailyOmni and WorldSense) and temporal grounding (Charades-STA). All datasets, models, and code will be made publicly available at https://github.com/yaolinli/TimeChat-Captioner.

TimeChat-Captioner: 時間認識と構造化された音声視覚キャプションによるマルチシーン動画のスクリプト生成

TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions

要旨

Support