AVoCaDO: Un Generador de Subtítulos Audiovisuales Dirigido por Orquestación Temporal
AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration
October 12, 2025
Autores: Xinlong Chen, Yue Ding, Weihong Lin, Jingyun Hua, Linli Yao, Yang Shi, Bozhou Li, Yuanxing Zhang, Qiang Liu, Pengfei Wan, Liang Wang, Tieniu Tan
cs.AI
Resumen
La subtitulación audiovisual de videos tiene como objetivo generar descripciones semánticamente ricas con alineación temporal entre eventos visuales y auditivos, beneficiando tanto la comprensión como la generación de videos. En este artículo, presentamos AVoCaDO, un potente generador de subtítulos audiovisuales impulsado por la orquestación temporal entre las modalidades de audio y video. Proponemos una canalización de posentrenamiento en dos etapas: (1) AVoCaDO SFT, que ajusta el modelo en un nuevo conjunto de datos curado de 107K subtítulos audiovisuales de alta calidad y temporalmente alineados; y (2) AVoCaDO GRPO, que aprovecha funciones de recompensa personalizadas para mejorar aún más la coherencia temporal y la precisión del diálogo, mientras regulariza la longitud de los subtítulos y reduce el colapso. Los resultados experimentales demuestran que AVoCaDO supera significativamente a los modelos de código abierto existentes en cuatro puntos de referencia de subtitulación audiovisual de videos, y también logra un rendimiento competitivo en los benchmarks VDC y DREAM-1K bajo configuraciones exclusivamente visuales.
English
Audiovisual video captioning aims to generate semantically rich descriptions
with temporal alignment between visual and auditory events, thereby benefiting
both video understanding and generation. In this paper, we present AVoCaDO, a
powerful audiovisual video captioner driven by the temporal orchestration
between audio and visual modalities. We propose a two-stage post-training
pipeline: (1) AVoCaDO SFT, which fine-tunes the model on a newly curated
dataset of 107K high-quality, temporally-aligned audiovisual captions; and (2)
AVoCaDO GRPO, which leverages tailored reward functions to further enhance
temporal coherence and dialogue accuracy while regularizing caption length and
reducing collapse. Experimental results demonstrate that AVoCaDO significantly
outperforms existing open-source models across four audiovisual video
captioning benchmarks, and also achieves competitive performance on the VDC and
DREAM-1K benchmark under visual-only settings.