AVoCaDO: Un Generador de Subtítulos Audiovisuales Dirigido por Orquestación Temporal

Resumen

La subtitulación audiovisual de videos tiene como objetivo generar descripciones semánticamente ricas con alineación temporal entre eventos visuales y auditivos, beneficiando tanto la comprensión como la generación de videos. En este artículo, presentamos AVoCaDO, un potente generador de subtítulos audiovisuales impulsado por la orquestación temporal entre las modalidades de audio y video. Proponemos una canalización de posentrenamiento en dos etapas: (1) AVoCaDO SFT, que ajusta el modelo en un nuevo conjunto de datos curado de 107K subtítulos audiovisuales de alta calidad y temporalmente alineados; y (2) AVoCaDO GRPO, que aprovecha funciones de recompensa personalizadas para mejorar aún más la coherencia temporal y la precisión del diálogo, mientras regulariza la longitud de los subtítulos y reduce el colapso. Los resultados experimentales demuestran que AVoCaDO supera significativamente a los modelos de código abierto existentes en cuatro puntos de referencia de subtitulación audiovisual de videos, y también logra un rendimiento competitivo en los benchmarks VDC y DREAM-1K bajo configuraciones exclusivamente visuales.

English

Audiovisual video captioning aims to generate semantically rich descriptions with temporal alignment between visual and auditory events, thereby benefiting both video understanding and generation. In this paper, we present AVoCaDO, a powerful audiovisual video captioner driven by the temporal orchestration between audio and visual modalities. We propose a two-stage post-training pipeline: (1) AVoCaDO SFT, which fine-tunes the model on a newly curated dataset of 107K high-quality, temporally-aligned audiovisual captions; and (2) AVoCaDO GRPO, which leverages tailored reward functions to further enhance temporal coherence and dialogue accuracy while regularizing caption length and reducing collapse. Experimental results demonstrate that AVoCaDO significantly outperforms existing open-source models across four audiovisual video captioning benchmarks, and also achieves competitive performance on the VDC and DREAM-1K benchmark under visual-only settings.