AVoCaDO: 시간적 조정에 기반한 오디오비주얼 비디오 캡션 생성기
AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration
October 12, 2025
저자: Xinlong Chen, Yue Ding, Weihong Lin, Jingyun Hua, Linli Yao, Yang Shi, Bozhou Li, Yuanxing Zhang, Qiang Liu, Pengfei Wan, Liang Wang, Tieniu Tan
cs.AI
초록
오디오비주얼 비디오 캡셔닝은 시각적 및 청각적 이벤트 간의 시간적 정렬을 통해 의미론적으로 풍부한 설명을 생성하는 것을 목표로 하며, 이를 통해 비디오 이해와 생성 모두에 이점을 제공합니다. 본 논문에서는 오디오와 시각적 모달리티 간의 시간적 조율에 의해 구동되는 강력한 오디오비주얼 비디오 캡셔너인 AVoCaDO를 소개합니다. 우리는 두 단계의 사후 학습 파이프라인을 제안합니다: (1) 107K개의 고품질, 시간적으로 정렬된 오디오비주얼 캡션으로 구성된 새롭게 구축된 데이터셋에서 모델을 미세 조정하는 AVoCaDO SFT; 그리고 (2) 캡션 길이를 정규화하고 붕괴를 줄이면서 시간적 일관성과 대화 정확도를 더욱 향상시키기 위해 맞춤형 보상 함수를 활용하는 AVoCaDO GRPO. 실험 결과는 AVoCaDO가 네 개의 오디오비주얼 비디오 캡셔닝 벤치마크에서 기존의 오픈소스 모델을 크게 능가하며, 시각적 전용 설정에서도 VDC 및 DREAM-1K 벤치마크에서 경쟁력 있는 성능을 달성함을 보여줍니다.
English
Audiovisual video captioning aims to generate semantically rich descriptions
with temporal alignment between visual and auditory events, thereby benefiting
both video understanding and generation. In this paper, we present AVoCaDO, a
powerful audiovisual video captioner driven by the temporal orchestration
between audio and visual modalities. We propose a two-stage post-training
pipeline: (1) AVoCaDO SFT, which fine-tunes the model on a newly curated
dataset of 107K high-quality, temporally-aligned audiovisual captions; and (2)
AVoCaDO GRPO, which leverages tailored reward functions to further enhance
temporal coherence and dialogue accuracy while regularizing caption length and
reducing collapse. Experimental results demonstrate that AVoCaDO significantly
outperforms existing open-source models across four audiovisual video
captioning benchmarks, and also achieves competitive performance on the VDC and
DREAM-1K benchmark under visual-only settings.