ChatPaper.aiChatPaper

TimeChat-Captioner: Roteirização de Vídeos com Múltiplas Cenas por meio de Legendas Áudio-Visuais com Consciência Temporal e Estrutural

TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions

February 9, 2026
Autores: Linli Yao, Yuancheng Wei, Yaojie Zhang, Lei Li, Xinlong Chen, Feifan Song, Ziyue Wang, Kun Ouyang, Yuanxin Liu, Lingpeng Kong, Qi Liu, Pengfei Wan, Kun Gai, Yuanxing Zhang, Xu Sun
cs.AI

Resumo

Este artigo propõe a Descrição Densa Omni (Omni Dense Captioning), uma nova tarefa concebida para gerar narrativas áudio-visuais contínuas, refinadas e estruturadas com carimbos de tempo explícitos. Para garantir uma cobertura semântica densa, introduzimos um esquema estrutural de seis dimensões para criar legendas "semelhantes a roteiros", permitindo que os leitores imaginem vividamente o conteúdo do vídeo cena a cena, análogo a um roteiro cinematográfico. Para fomentar a pesquisa, construímos o OmniDCBench, um benchmark de alta qualidade anotado manualmente, e propomos o SodaM, uma métrica unificada que avalia descrições detalhadas com consciência temporal, mitigando a ambiguidade dos limites das cenas. Adicionalmente, construímos um conjunto de dados de treinamento, o TimeChatCap-42K, e apresentamos o TimeChat-Captioner-7B, uma linha de base robusta treinada via SFT (Supervised Fine-Tuning) e GRPO (Group Relative Policy Optimization) com recompensas específicas da tarefa. Experimentos extensivos demonstram que o TimeChat-Captioner-7B atinge um desempenho de ponta, superando o Gemini-2.5-Pro, enquanto as suas descrições densas geradas impulsionam significativamente as capacidades subsequentes em raciocínio áudio-visual (DailyOmni e WorldSense) e enraizamento temporal (Charades-STA). Todos os conjuntos de dados, modelos e código serão disponibilizados publicamente em https://github.com/yaolinli/TimeChat-Captioner.
English
This paper proposes Omni Dense Captioning, a novel task designed to generate continuous, fine-grained, and structured audio-visual narratives with explicit timestamps. To ensure dense semantic coverage, we introduce a six-dimensional structural schema to create "script-like" captions, enabling readers to vividly imagine the video content scene by scene, akin to a cinematographic screenplay. To facilitate research, we construct OmniDCBench, a high-quality, human-annotated benchmark, and propose SodaM, a unified metric that evaluates time-aware detailed descriptions while mitigating scene boundary ambiguity. Furthermore, we construct a training dataset, TimeChatCap-42K, and present TimeChat-Captioner-7B, a strong baseline trained via SFT and GRPO with task-specific rewards. Extensive experiments demonstrate that TimeChat-Captioner-7B achieves state-of-the-art performance, surpassing Gemini-2.5-Pro, while its generated dense descriptions significantly boost downstream capabilities in audio-visual reasoning (DailyOmni and WorldSense) and temporal grounding (Charades-STA). All datasets, models, and code will be made publicly available at https://github.com/yaolinli/TimeChat-Captioner.
PDF282March 10, 2026