AVoCaDO: Ein audiovisueller Videountertitler gesteuert durch temporale Orchestrierung
AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration
October 12, 2025
papers.authors: Xinlong Chen, Yue Ding, Weihong Lin, Jingyun Hua, Linli Yao, Yang Shi, Bozhou Li, Yuanxing Zhang, Qiang Liu, Pengfei Wan, Liang Wang, Tieniu Tan
cs.AI
papers.abstract
Die audiovisuelle Videobeschriftung zielt darauf ab, semantisch reichhaltige Beschreibungen mit zeitlicher Abstimmung zwischen visuellen und auditiven Ereignissen zu generieren, wodurch sowohl das Verständnis als auch die Erstellung von Videos verbessert werden. In diesem Artikel stellen wir AVoCaDO vor, einen leistungsstarken audiovisuellen Videobeschriftungsgenerator, der durch die zeitliche Orchestrierung zwischen auditiven und visuellen Modalitäten angetrieben wird. Wir schlagen eine zweistufige Nachschulungs-Pipeline vor: (1) AVoCaDO SFT, das das Modell auf einem neu kuratierten Datensatz von 107.000 hochwertigen, zeitlich abgestimmten audiovisuellen Beschriftungen feinabstimmt; und (2) AVoCaDO GRPO, das maßgeschneiderte Belohnungsfunktionen nutzt, um die zeitliche Kohärenz und Dialoggenauigkeit weiter zu verbessern, während die Beschriftungslänge reguliert und Zusammenbrüche reduziert werden. Experimentelle Ergebnisse zeigen, dass AVoCaDO bestehende Open-Source-Modelle in vier audiovisuellen Videobeschriftungs-Benchmarks deutlich übertrifft und auch im visuell-exklusiven Setting auf dem VDC- und DREAM-1K-Benchmark wettbewerbsfähige Leistungen erzielt.
English
Audiovisual video captioning aims to generate semantically rich descriptions
with temporal alignment between visual and auditory events, thereby benefiting
both video understanding and generation. In this paper, we present AVoCaDO, a
powerful audiovisual video captioner driven by the temporal orchestration
between audio and visual modalities. We propose a two-stage post-training
pipeline: (1) AVoCaDO SFT, which fine-tunes the model on a newly curated
dataset of 107K high-quality, temporally-aligned audiovisual captions; and (2)
AVoCaDO GRPO, which leverages tailored reward functions to further enhance
temporal coherence and dialogue accuracy while regularizing caption length and
reducing collapse. Experimental results demonstrate that AVoCaDO significantly
outperforms existing open-source models across four audiovisual video
captioning benchmarks, and also achieves competitive performance on the VDC and
DREAM-1K benchmark under visual-only settings.