TimeChat-Captioner: Scripting di Video Multi-Scena con Didascalie Audio-Visive Temporali e Strutturate

Abstract

Questo articolo propone l'Omni Dense Captioning, un nuovo compito progettato per generare narrazioni audiovisive continue, granulari e strutturate con timestamp espliciti. Per garantire una copertura semantica densa, introduciamo uno schema strutturale a sei dimensioni per creare didascalie "simili a copioni", consentendo ai lettori di immaginare vividamente il contenuto video scena per scena, simile a una sceneggiatura cinematografica. Per facilitare la ricerca, costruiamo OmniDCBench, un benchmark di alta qualità annotato manualmente, e proponiamo SodaM, una metrica unificata che valuta descrizioni dettagliate con consapevolezza temporale mitigando l'ambiguità dei confini di scena. Inoltre, costruiamo un dataset di addestramento, TimeChatCap-42K, e presentiamo TimeChat-Captioner-7B, una solida baseline addestrata tramite SFT e GRPO con ricompense specifiche per il compito. Esperimenti estensivi dimostrano che TimeChat-Captioner-7B raggiunge prestazioni all'avanguardia, superando Gemini-2.5-Pro, mentre le sue descrizioni dense generate potenziano significativamente le capacità downstream nel ragionamento audiovisivo (DailyOmni e WorldSense) e nel grounding temporale (Charades-STA). Tutti i dataset, i modelli e il codice saranno resi pubblicamente disponibili su https://github.com/yaolinli/TimeChat-Captioner.

English

This paper proposes Omni Dense Captioning, a novel task designed to generate continuous, fine-grained, and structured audio-visual narratives with explicit timestamps. To ensure dense semantic coverage, we introduce a six-dimensional structural schema to create "script-like" captions, enabling readers to vividly imagine the video content scene by scene, akin to a cinematographic screenplay. To facilitate research, we construct OmniDCBench, a high-quality, human-annotated benchmark, and propose SodaM, a unified metric that evaluates time-aware detailed descriptions while mitigating scene boundary ambiguity. Furthermore, we construct a training dataset, TimeChatCap-42K, and present TimeChat-Captioner-7B, a strong baseline trained via SFT and GRPO with task-specific rewards. Extensive experiments demonstrate that TimeChat-Captioner-7B achieves state-of-the-art performance, surpassing Gemini-2.5-Pro, while its generated dense descriptions significantly boost downstream capabilities in audio-visual reasoning (DailyOmni and WorldSense) and temporal grounding (Charades-STA). All datasets, models, and code will be made publicly available at https://github.com/yaolinli/TimeChat-Captioner.

TimeChat-Captioner: Scripting di Video Multi-Scena con Didascalie Audio-Visive Temporali e Strutturate

TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions

Abstract

Support