AVoCaDO: Un Generatore di Didascalie Audiovisive Guidato dall'Orchestrazione Temporale

Abstract

La descrizione audiovisiva dei video mira a generare descrizioni semanticamente ricche con un allineamento temporale tra eventi visivi e uditivi, contribuendo così sia alla comprensione che alla generazione di video. In questo articolo, presentiamo AVoCaDO, un potente descrittore audiovisivo di video guidato dall'orchestrazione temporale tra le modalità audio e visiva. Proponiamo una pipeline di post-addestramento in due fasi: (1) AVoCaDO SFT, che perfeziona il modello su un nuovo dataset curato di 107K descrizioni audiovisive di alta qualità e temporalmente allineate; e (2) AVoCaDO GRPO, che sfrutta funzioni di ricompensa personalizzate per migliorare ulteriormente la coerenza temporale e l'accuratezza del dialogo, regolando al contempo la lunghezza delle descrizioni e riducendo il collasso. I risultati sperimentali dimostrano che AVoCaDO supera significativamente i modelli open-source esistenti su quattro benchmark di descrizione audiovisiva dei video e raggiunge anche prestazioni competitive sui benchmark VDC e DREAM-1K in contesti esclusivamente visivi.

English

Audiovisual video captioning aims to generate semantically rich descriptions with temporal alignment between visual and auditory events, thereby benefiting both video understanding and generation. In this paper, we present AVoCaDO, a powerful audiovisual video captioner driven by the temporal orchestration between audio and visual modalities. We propose a two-stage post-training pipeline: (1) AVoCaDO SFT, which fine-tunes the model on a newly curated dataset of 107K high-quality, temporally-aligned audiovisual captions; and (2) AVoCaDO GRPO, which leverages tailored reward functions to further enhance temporal coherence and dialogue accuracy while regularizing caption length and reducing collapse. Experimental results demonstrate that AVoCaDO significantly outperforms existing open-source models across four audiovisual video captioning benchmarks, and also achieves competitive performance on the VDC and DREAM-1K benchmark under visual-only settings.

AVoCaDO: Un Generatore di Didascalie Audiovisive Guidato dall'Orchestrazione Temporale

AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration

Abstract

Support