AVoCaDO: Um Gerador de Legendas Audiovisuais Orientado por Orquestração Temporal
AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration
October 12, 2025
Autores: Xinlong Chen, Yue Ding, Weihong Lin, Jingyun Hua, Linli Yao, Yang Shi, Bozhou Li, Yuanxing Zhang, Qiang Liu, Pengfei Wan, Liang Wang, Tieniu Tan
cs.AI
Resumo
A legendagem audiovisual de vídeos visa gerar descrições semanticamente ricas com alinhamento temporal entre eventos visuais e auditivos, beneficiando tanto a compreensão quanto a geração de vídeos. Neste artigo, apresentamos o AVoCaDO, um poderoso legendador audiovisual de vídeos impulsionado pela orquestração temporal entre as modalidades de áudio e vídeo. Propomos um pipeline de pós-treinamento em duas etapas: (1) AVoCaDO SFT, que ajusta o modelo em um novo conjunto de dados curado de 107 mil legendas audiovisuais de alta qualidade e temporalmente alinhadas; e (2) AVoCaDO GRPO, que utiliza funções de recompensa personalizadas para aprimorar ainda mais a coerência temporal e a precisão do diálogo, ao mesmo tempo que regulariza o comprimento das legendas e reduz o colapso. Os resultados experimentais demonstram que o AVoCaDO supera significativamente os modelos de código aberto existentes em quatro benchmarks de legendagem audiovisual de vídeos, além de alcançar desempenho competitivo nos benchmarks VDC e DREAM-1K em configurações exclusivamente visuais.
English
Audiovisual video captioning aims to generate semantically rich descriptions
with temporal alignment between visual and auditory events, thereby benefiting
both video understanding and generation. In this paper, we present AVoCaDO, a
powerful audiovisual video captioner driven by the temporal orchestration
between audio and visual modalities. We propose a two-stage post-training
pipeline: (1) AVoCaDO SFT, which fine-tunes the model on a newly curated
dataset of 107K high-quality, temporally-aligned audiovisual captions; and (2)
AVoCaDO GRPO, which leverages tailored reward functions to further enhance
temporal coherence and dialogue accuracy while regularizing caption length and
reducing collapse. Experimental results demonstrate that AVoCaDO significantly
outperforms existing open-source models across four audiovisual video
captioning benchmarks, and also achieves competitive performance on the VDC and
DREAM-1K benchmark under visual-only settings.