AVoCaDO: Аудиовизуальный генератор видеоподписей, управляемый временной оркестровкой
AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration
October 12, 2025
Авторы: Xinlong Chen, Yue Ding, Weihong Lin, Jingyun Hua, Linli Yao, Yang Shi, Bozhou Li, Yuanxing Zhang, Qiang Liu, Pengfei Wan, Liang Wang, Tieniu Tan
cs.AI
Аннотация
Аудиовизуальное создание субтитров для видео направлено на генерацию семантически насыщенных описаний с временным согласованием визуальных и звуковых событий, что способствует как пониманию, так и созданию видео. В данной статье мы представляем AVoCaDO — мощный аудиовизуальный генератор субтитров, основанный на временной координации аудио- и визуальных модальностей. Мы предлагаем двухэтапный процесс пост-обучения: (1) AVoCaDO SFT, который дообучает модель на новом наборе данных, содержащем 107 тысяч высококачественных, временно согласованных аудиовизуальных субтитров; и (2) AVoCaDO GRPO, который использует специализированные функции вознаграждения для дальнейшего улучшения временной согласованности и точности диалогов, одновременно регулируя длину субтитров и предотвращая коллапс. Экспериментальные результаты показывают, что AVoCaDO значительно превосходит существующие открытые модели на четырех бенчмарках аудиовизуального создания субтитров, а также демонстрирует конкурентоспособные результаты на бенчмарках VDC и DREAM-1K в условиях использования только визуальных данных.
English
Audiovisual video captioning aims to generate semantically rich descriptions
with temporal alignment between visual and auditory events, thereby benefiting
both video understanding and generation. In this paper, we present AVoCaDO, a
powerful audiovisual video captioner driven by the temporal orchestration
between audio and visual modalities. We propose a two-stage post-training
pipeline: (1) AVoCaDO SFT, which fine-tunes the model on a newly curated
dataset of 107K high-quality, temporally-aligned audiovisual captions; and (2)
AVoCaDO GRPO, which leverages tailored reward functions to further enhance
temporal coherence and dialogue accuracy while regularizing caption length and
reducing collapse. Experimental results demonstrate that AVoCaDO significantly
outperforms existing open-source models across four audiovisual video
captioning benchmarks, and also achieves competitive performance on the VDC and
DREAM-1K benchmark under visual-only settings.