AVoCaDO: Ein audiovisueller Videountertitler gesteuert durch temporale Orchestrierung

Zusammenfassung

Die audiovisuelle Videobeschriftung zielt darauf ab, semantisch reichhaltige Beschreibungen mit zeitlicher Abstimmung zwischen visuellen und auditiven Ereignissen zu generieren, wodurch sowohl das Verständnis als auch die Erstellung von Videos verbessert werden. In diesem Artikel stellen wir AVoCaDO vor, einen leistungsstarken audiovisuellen Videobeschriftungsgenerator, der durch die zeitliche Orchestrierung zwischen auditiven und visuellen Modalitäten angetrieben wird. Wir schlagen eine zweistufige Nachschulungs-Pipeline vor: (1) AVoCaDO SFT, das das Modell auf einem neu kuratierten Datensatz von 107.000 hochwertigen, zeitlich abgestimmten audiovisuellen Beschriftungen feinabstimmt; und (2) AVoCaDO GRPO, das maßgeschneiderte Belohnungsfunktionen nutzt, um die zeitliche Kohärenz und Dialoggenauigkeit weiter zu verbessern, während die Beschriftungslänge reguliert und Zusammenbrüche reduziert werden. Experimentelle Ergebnisse zeigen, dass AVoCaDO bestehende Open-Source-Modelle in vier audiovisuellen Videobeschriftungs-Benchmarks deutlich übertrifft und auch im visuell-exklusiven Setting auf dem VDC- und DREAM-1K-Benchmark wettbewerbsfähige Leistungen erzielt.

English

Audiovisual video captioning aims to generate semantically rich descriptions with temporal alignment between visual and auditory events, thereby benefiting both video understanding and generation. In this paper, we present AVoCaDO, a powerful audiovisual video captioner driven by the temporal orchestration between audio and visual modalities. We propose a two-stage post-training pipeline: (1) AVoCaDO SFT, which fine-tunes the model on a newly curated dataset of 107K high-quality, temporally-aligned audiovisual captions; and (2) AVoCaDO GRPO, which leverages tailored reward functions to further enhance temporal coherence and dialogue accuracy while regularizing caption length and reducing collapse. Experimental results demonstrate that AVoCaDO significantly outperforms existing open-source models across four audiovisual video captioning benchmarks, and also achieves competitive performance on the VDC and DREAM-1K benchmark under visual-only settings.