AVoCaDO: Een Audiovisuele Videobeschrijver Aangedreven door Temporele Orkestratie
AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration
October 12, 2025
Auteurs: Xinlong Chen, Yue Ding, Weihong Lin, Jingyun Hua, Linli Yao, Yang Shi, Bozhou Li, Yuanxing Zhang, Qiang Liu, Pengfei Wan, Liang Wang, Tieniu Tan
cs.AI
Samenvatting
Audiovisuele videobijschriftgeving heeft als doel semantisch rijke beschrijvingen te genereren met temporele afstemming tussen visuele en auditieve gebeurtenissen, waardoor zowel videobegrip als -generatie worden bevorderd. In dit artikel presenteren we AVoCaDO, een krachtige audiovisuele videobijschrijver die wordt aangedreven door de temporele orkestratie tussen audio- en visuele modaliteiten. We stellen een tweestaps na-trainingspijplijn voor: (1) AVoCaDO SFT, dat het model fine-tunt op een nieuw samengestelde dataset van 107K hoogwaardige, temporeel afgestemde audiovisuele bijschriften; en (2) AVoCaDO GRPO, dat gebruikmaakt van op maat gemaakte beloningsfuncties om de temporele samenhang en dialoognauwkeurigheid verder te verbeteren, terwijl de bijschriftlengte wordt gereguleerd en ineenstorting wordt verminderd. Experimentele resultaten tonen aan dat AVoCaDO aanzienlijk beter presteert dan bestaande open-source modellen op vier audiovisuele videobijschriftingsbenchmarks, en ook competitieve prestaties behaalt op de VDC- en DREAM-1K-benchmark onder visueel-alleen instellingen.
English
Audiovisual video captioning aims to generate semantically rich descriptions
with temporal alignment between visual and auditory events, thereby benefiting
both video understanding and generation. In this paper, we present AVoCaDO, a
powerful audiovisual video captioner driven by the temporal orchestration
between audio and visual modalities. We propose a two-stage post-training
pipeline: (1) AVoCaDO SFT, which fine-tunes the model on a newly curated
dataset of 107K high-quality, temporally-aligned audiovisual captions; and (2)
AVoCaDO GRPO, which leverages tailored reward functions to further enhance
temporal coherence and dialogue accuracy while regularizing caption length and
reducing collapse. Experimental results demonstrate that AVoCaDO significantly
outperforms existing open-source models across four audiovisual video
captioning benchmarks, and also achieves competitive performance on the VDC and
DREAM-1K benchmark under visual-only settings.