TimeChat-Captioner: Erstellung von Skripten für Multiszenen-Videos mit zeitbewussten und strukturellen Audio-Visuellen Beschreibungen
TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions
February 9, 2026
papers.authors: Linli Yao, Yuancheng Wei, Yaojie Zhang, Lei Li, Xinlong Chen, Feifan Song, Ziyue Wang, Kun Ouyang, Yuanxin Liu, Lingpeng Kong, Qi Liu, Pengfei Wan, Kun Gai, Yuanxing Zhang, Xu Sun
cs.AI
papers.abstract
Dieses Paper stellt Omni Dense Captioning vor, eine neuartige Aufgabe, die darauf abzielt, kontinuierliche, feinkörnige und strukturierte audiovisuelle Narrative mit expliziten Zeitstempeln zu generieren. Um eine dichte semantische Abdeckung zu gewährleisten, führen wir ein sechsdimensionales Strukturschema ein, um "skriptähnliche" Beschreibungen zu erstellen, die es Lesern ermöglichen, sich den Videoinhalt szenenweise lebhaft vorzustellen, ähnlich einem kinematografischen Drehbuch. Um die Forschung zu erleichtern, erstellen wir OmniDCBench, einen hochwertigen, menschlich annotierten Benchmark, und schlagen SodaM vor, eine einheitliche Metrik, die zeitbewusste Detailbeschreibungen bewertet und gleichzeitig die Unschärfe von Szenengrenzen mildert. Darüber hinaus erstellen wir einen Trainingsdatensatz, TimeChatCap-42K, und präsentieren TimeChat-Captioner-7B, eine starke Baseline, die via SFT und GRPO mit aufgabenspezifischen Belohnungen trainiert wurde. Umfangreiche Experimente zeigen, dass TimeChat-Captioner-7B state-of-the-art Leistung erzielt und Gemini-2.5-Pro übertrifft, während seine generierten dichten Beschreibungen die nachgelagerten Fähigkeiten im audiovisuellen Reasoning (DailyOmni und WorldSense) und im temporalen Grounding (Charades-STA) signifikant steigern. Alle Datensätze, Modelle und der Code werden unter https://github.com/yaolinli/TimeChat-Captioner öffentlich verfügbar gemacht.
English
This paper proposes Omni Dense Captioning, a novel task designed to generate continuous, fine-grained, and structured audio-visual narratives with explicit timestamps. To ensure dense semantic coverage, we introduce a six-dimensional structural schema to create "script-like" captions, enabling readers to vividly imagine the video content scene by scene, akin to a cinematographic screenplay. To facilitate research, we construct OmniDCBench, a high-quality, human-annotated benchmark, and propose SodaM, a unified metric that evaluates time-aware detailed descriptions while mitigating scene boundary ambiguity. Furthermore, we construct a training dataset, TimeChatCap-42K, and present TimeChat-Captioner-7B, a strong baseline trained via SFT and GRPO with task-specific rewards. Extensive experiments demonstrate that TimeChat-Captioner-7B achieves state-of-the-art performance, surpassing Gemini-2.5-Pro, while its generated dense descriptions significantly boost downstream capabilities in audio-visual reasoning (DailyOmni and WorldSense) and temporal grounding (Charades-STA). All datasets, models, and code will be made publicly available at https://github.com/yaolinli/TimeChat-Captioner.