ChatPaper.aiChatPaper

TimeChat-Captioner : Scénarisation de vidéos multi-scènes avec des légendes audio-visuelles temporellement conscientes et structurelles

TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions

February 9, 2026
papers.authors: Linli Yao, Yuancheng Wei, Yaojie Zhang, Lei Li, Xinlong Chen, Feifan Song, Ziyue Wang, Kun Ouyang, Yuanxin Liu, Lingpeng Kong, Qi Liu, Pengfei Wan, Kun Gai, Yuanxing Zhang, Xu Sun
cs.AI

papers.abstract

Ce travail propose l'Omni Dense Captioning, une nouvelle tâche conçue pour générer des narrations audio-visuelles continues, fines et structurées avec des horodatages explicites. Pour assurer une couverture sémantique dense, nous introduisons un schéma structurel à six dimensions afin de créer des légendes « semblables à un script », permettant aux lecteurs d'imaginer vivement le contenu vidéo scène par scène, à la manière d'un scénario cinématographique. Pour faciliter la recherche, nous construisons OmniDCBench, un benchmark de haute qualité annoté manuellement, et proposons SodaM, une métrique unifiée qui évalue les descriptions détaillées sensibles au temps tout en atténuant l'ambiguïté des limites de scène. De plus, nous constituons un jeu de données d'entraînement, TimeChatCap-42K, et présentons TimeChat-Captioner-7B, une base solide entraînée via SFT et GRPO avec des récompenses spécifiques à la tâche. Des expériences approfondies démontrent que TimeChat-Captioner-7B atteint des performances de pointe, surpassant Gemini-2.5-Pro, tandis que ses descriptions denses générées améliorent significativement les capacités en aval dans le raisonnement audio-visuel (DailyOmni et WorldSense) et l'ancrage temporel (Charades-STA). Tous les jeux de données, modèles et codes seront rendus publics à l'adresse https://github.com/yaolinli/TimeChat-Captioner.
English
This paper proposes Omni Dense Captioning, a novel task designed to generate continuous, fine-grained, and structured audio-visual narratives with explicit timestamps. To ensure dense semantic coverage, we introduce a six-dimensional structural schema to create "script-like" captions, enabling readers to vividly imagine the video content scene by scene, akin to a cinematographic screenplay. To facilitate research, we construct OmniDCBench, a high-quality, human-annotated benchmark, and propose SodaM, a unified metric that evaluates time-aware detailed descriptions while mitigating scene boundary ambiguity. Furthermore, we construct a training dataset, TimeChatCap-42K, and present TimeChat-Captioner-7B, a strong baseline trained via SFT and GRPO with task-specific rewards. Extensive experiments demonstrate that TimeChat-Captioner-7B achieves state-of-the-art performance, surpassing Gemini-2.5-Pro, while its generated dense descriptions significantly boost downstream capabilities in audio-visual reasoning (DailyOmni and WorldSense) and temporal grounding (Charades-STA). All datasets, models, and code will be made publicly available at https://github.com/yaolinli/TimeChat-Captioner.
PDF221February 13, 2026