ChatPaper.aiChatPaper

AVoCaDO: Un Generatore di Didascalie Audiovisive Guidato dall'Orchestrazione Temporale

AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration

October 12, 2025
Autori: Xinlong Chen, Yue Ding, Weihong Lin, Jingyun Hua, Linli Yao, Yang Shi, Bozhou Li, Yuanxing Zhang, Qiang Liu, Pengfei Wan, Liang Wang, Tieniu Tan
cs.AI

Abstract

La descrizione audiovisiva dei video mira a generare descrizioni semanticamente ricche con un allineamento temporale tra eventi visivi e uditivi, contribuendo così sia alla comprensione che alla generazione di video. In questo articolo, presentiamo AVoCaDO, un potente descrittore audiovisivo di video guidato dall'orchestrazione temporale tra le modalità audio e visiva. Proponiamo una pipeline di post-addestramento in due fasi: (1) AVoCaDO SFT, che perfeziona il modello su un nuovo dataset curato di 107K descrizioni audiovisive di alta qualità e temporalmente allineate; e (2) AVoCaDO GRPO, che sfrutta funzioni di ricompensa personalizzate per migliorare ulteriormente la coerenza temporale e l'accuratezza del dialogo, regolando al contempo la lunghezza delle descrizioni e riducendo il collasso. I risultati sperimentali dimostrano che AVoCaDO supera significativamente i modelli open-source esistenti su quattro benchmark di descrizione audiovisiva dei video e raggiunge anche prestazioni competitive sui benchmark VDC e DREAM-1K in contesti esclusivamente visivi.
English
Audiovisual video captioning aims to generate semantically rich descriptions with temporal alignment between visual and auditory events, thereby benefiting both video understanding and generation. In this paper, we present AVoCaDO, a powerful audiovisual video captioner driven by the temporal orchestration between audio and visual modalities. We propose a two-stage post-training pipeline: (1) AVoCaDO SFT, which fine-tunes the model on a newly curated dataset of 107K high-quality, temporally-aligned audiovisual captions; and (2) AVoCaDO GRPO, which leverages tailored reward functions to further enhance temporal coherence and dialogue accuracy while regularizing caption length and reducing collapse. Experimental results demonstrate that AVoCaDO significantly outperforms existing open-source models across four audiovisual video captioning benchmarks, and also achieves competitive performance on the VDC and DREAM-1K benchmark under visual-only settings.
PDF282October 14, 2025