TimeChat-Captioner: Roteirização de Vídeos com Múltiplas Cenas por meio de Legendas Áudio-Visuais com Consciência Temporal e Estrutural

Resumo

Este artigo propõe a Descrição Densa Omni (Omni Dense Captioning), uma nova tarefa concebida para gerar narrativas áudio-visuais contínuas, refinadas e estruturadas com carimbos de tempo explícitos. Para garantir uma cobertura semântica densa, introduzimos um esquema estrutural de seis dimensões para criar legendas "semelhantes a roteiros", permitindo que os leitores imaginem vividamente o conteúdo do vídeo cena a cena, análogo a um roteiro cinematográfico. Para fomentar a pesquisa, construímos o OmniDCBench, um benchmark de alta qualidade anotado manualmente, e propomos o SodaM, uma métrica unificada que avalia descrições detalhadas com consciência temporal, mitigando a ambiguidade dos limites das cenas. Adicionalmente, construímos um conjunto de dados de treinamento, o TimeChatCap-42K, e apresentamos o TimeChat-Captioner-7B, uma linha de base robusta treinada via SFT (Supervised Fine-Tuning) e GRPO (Group Relative Policy Optimization) com recompensas específicas da tarefa. Experimentos extensivos demonstram que o TimeChat-Captioner-7B atinge um desempenho de ponta, superando o Gemini-2.5-Pro, enquanto as suas descrições densas geradas impulsionam significativamente as capacidades subsequentes em raciocínio áudio-visual (DailyOmni e WorldSense) e enraizamento temporal (Charades-STA). Todos os conjuntos de dados, modelos e código serão disponibilizados publicamente em https://github.com/yaolinli/TimeChat-Captioner.

English

This paper proposes Omni Dense Captioning, a novel task designed to generate continuous, fine-grained, and structured audio-visual narratives with explicit timestamps. To ensure dense semantic coverage, we introduce a six-dimensional structural schema to create "script-like" captions, enabling readers to vividly imagine the video content scene by scene, akin to a cinematographic screenplay. To facilitate research, we construct OmniDCBench, a high-quality, human-annotated benchmark, and propose SodaM, a unified metric that evaluates time-aware detailed descriptions while mitigating scene boundary ambiguity. Furthermore, we construct a training dataset, TimeChatCap-42K, and present TimeChat-Captioner-7B, a strong baseline trained via SFT and GRPO with task-specific rewards. Extensive experiments demonstrate that TimeChat-Captioner-7B achieves state-of-the-art performance, surpassing Gemini-2.5-Pro, while its generated dense descriptions significantly boost downstream capabilities in audio-visual reasoning (DailyOmni and WorldSense) and temporal grounding (Charades-STA). All datasets, models, and code will be made publicly available at https://github.com/yaolinli/TimeChat-Captioner.

TimeChat-Captioner: Roteirização de Vídeos com Múltiplas Cenas por meio de Legendas Áudio-Visuais com Consciência Temporal e Estrutural

TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions

Resumo

Support