TimeChat-Captioner: Guionización de Videos Multiescena con Subtítulos Audio-Visuales Estructurales y Conscientes del Tiempo
TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions
February 9, 2026
Autores: Linli Yao, Yuancheng Wei, Yaojie Zhang, Lei Li, Xinlong Chen, Feifan Song, Ziyue Wang, Kun Ouyang, Yuanxin Liu, Lingpeng Kong, Qi Liu, Pengfei Wan, Kun Gai, Yuanxing Zhang, Xu Sun
cs.AI
Resumen
Este artículo propone Omni Dense Captioning, una nueva tarea diseñada para generar narrativas audiovisuales continuas, detalladas y estructuradas con marcas temporales explícitas. Para garantizar una cobertura semántica densa, introducimos un esquema estructural de seis dimensiones para crear descripciones "similares a un guion", permitiendo a los lectores imaginar vívidamente el contenido del video escena por escena, análogo a un guion cinematográfico. Para facilitar la investigación, construimos OmniDCBench, un benchmark de alta calidad anotado manualmente, y proponemos SodaM, una métrica unificada que evalúa descripciones detalladas con conciencia temporal mientras mitiga la ambigüedad en los límites de las escenas. Además, construimos un conjunto de datos de entrenamiento, TimeChatCap-42K, y presentamos TimeChat-Captioner-7B, un sólido baseline entrenado mediante SFT y GRPO con recompensas específicas para la tarea. Experimentos exhaustivos demuestran que TimeChat-Captioner-7B alcanza un rendimiento state-of-the-art, superando a Gemini-2.5-Pro, mientras que sus descripciones densas generadas mejoran significativamente las capacidades posteriores en razonamiento audiovisual (DailyOmni y WorldSense) y localización temporal (Charades-STA). Todos los conjuntos de datos, modelos y código estarán disponibles públicamente en https://github.com/yaolinli/TimeChat-Captioner.
English
This paper proposes Omni Dense Captioning, a novel task designed to generate continuous, fine-grained, and structured audio-visual narratives with explicit timestamps. To ensure dense semantic coverage, we introduce a six-dimensional structural schema to create "script-like" captions, enabling readers to vividly imagine the video content scene by scene, akin to a cinematographic screenplay. To facilitate research, we construct OmniDCBench, a high-quality, human-annotated benchmark, and propose SodaM, a unified metric that evaluates time-aware detailed descriptions while mitigating scene boundary ambiguity. Furthermore, we construct a training dataset, TimeChatCap-42K, and present TimeChat-Captioner-7B, a strong baseline trained via SFT and GRPO with task-specific rewards. Extensive experiments demonstrate that TimeChat-Captioner-7B achieves state-of-the-art performance, surpassing Gemini-2.5-Pro, while its generated dense descriptions significantly boost downstream capabilities in audio-visual reasoning (DailyOmni and WorldSense) and temporal grounding (Charades-STA). All datasets, models, and code will be made publicly available at https://github.com/yaolinli/TimeChat-Captioner.