AVoCaDO : Un générateur de sous-titres audiovisuels piloté par une orchestration temporelle
AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration
October 12, 2025
papers.authors: Xinlong Chen, Yue Ding, Weihong Lin, Jingyun Hua, Linli Yao, Yang Shi, Bozhou Li, Yuanxing Zhang, Qiang Liu, Pengfei Wan, Liang Wang, Tieniu Tan
cs.AI
papers.abstract
Le sous-titrage audiovisuel vise à générer des descriptions sémantiquement riches avec un alignement temporel entre les événements visuels et auditifs, bénéficiant ainsi à la fois à la compréhension et à la génération vidéo. Dans cet article, nous présentons AVoCaDO, un puissant générateur de sous-titres audiovisuels piloté par l'orchestration temporelle entre les modalités audio et visuelles. Nous proposons un pipeline de post-formation en deux étapes : (1) AVoCaDO SFT, qui affine le modèle sur un nouvel ensemble de données de 107K sous-titres audiovisuels de haute qualité et temporellement alignés ; et (2) AVoCaDO GRPO, qui exploite des fonctions de récompense sur mesure pour améliorer davantage la cohérence temporelle et la précision des dialogues tout en régularisant la longueur des sous-titres et en réduisant l'effondrement. Les résultats expérimentaux montrent qu'AVoCaDO surpasse significativement les modèles open-source existants sur quatre benchmarks de sous-titrage audiovisuel, et obtient également des performances compétitives sur les benchmarks VDC et DREAM-1K dans des configurations visuelles uniquement.
English
Audiovisual video captioning aims to generate semantically rich descriptions
with temporal alignment between visual and auditory events, thereby benefiting
both video understanding and generation. In this paper, we present AVoCaDO, a
powerful audiovisual video captioner driven by the temporal orchestration
between audio and visual modalities. We propose a two-stage post-training
pipeline: (1) AVoCaDO SFT, which fine-tunes the model on a newly curated
dataset of 107K high-quality, temporally-aligned audiovisual captions; and (2)
AVoCaDO GRPO, which leverages tailored reward functions to further enhance
temporal coherence and dialogue accuracy while regularizing caption length and
reducing collapse. Experimental results demonstrate that AVoCaDO significantly
outperforms existing open-source models across four audiovisual video
captioning benchmarks, and also achieves competitive performance on the VDC and
DREAM-1K benchmark under visual-only settings.