UGC-VideoCaptioner: Um Modelo de Captação de Detalhes em Vídeos UGC Abrangente e Novos Benchmarks
UGC-VideoCaptioner: An Omni UGC Video Detail Caption Model and New Benchmarks
July 15, 2025
Autores: Peiran Wu, Yunze Liu, Zhengdong Zhu, Enmin Zhou, Shawn Shen
cs.AI
Resumo
Vídeos gerados por usuários no mundo real, especialmente em plataformas como o TikTok, frequentemente apresentam conteúdo audiovisual rico e interconectado. No entanto, os benchmarks e modelos existentes para legendagem de vídeos permanecem predominantemente centrados no visual, negligenciando o papel crucial do áudio na transmissão da dinâmica da cena, da intenção do falante e do contexto narrativo. Essa falta de conjuntos de dados omni e de modelos leves e capazes dificulta o progresso na compreensão multimodal e refinada de vídeos. Para enfrentar esses desafios, apresentamos o UGC-VideoCap, um novo benchmark e framework de modelo especificamente projetado para a legendagem omni detalhada de vídeos curtos gerados por usuários. Diferente de conjuntos de dados anteriores, o UGC-VideoCap enfatiza a integração equilibrada das modalidades de áudio e visual, apresentando 1000 vídeos do TikTok anotados por meio de um pipeline estruturado em três etapas com intervenção humana, cobrindo semântica apenas de áudio, apenas visual e conjunta audiovisual. O benchmark também inclui 4000 pares de perguntas e respostas cuidadosamente elaborados, explorando tanto a compreensão unimodal quanto a cruzada entre modalidades. Juntamente com o conjunto de dados, propomos o UGC-VideoCaptioner(3B), um modelo de legendagem com 3 bilhões de parâmetros, destilado do Gemini 2.5 Flash. Utilizando uma nova estratégia de treinamento em duas etapas — ajuste fino supervisionado seguido de Otimização de Política Relativa em Grupo (GRPO) — nossa abordagem permite uma adaptação eficiente a partir de dados limitados, mantendo um desempenho competitivo. Juntos, nosso benchmark e modelo oferecem uma base de alta qualidade e uma solução eficiente em termos de dados para avançar a legendagem omni de vídeos em cenários reais e não restritos de conteúdo gerado por usuários (UGC).
English
Real-world user-generated videos, especially on platforms like TikTok, often
feature rich and intertwined audio visual content. However, existing video
captioning benchmarks and models remain predominantly visual centric,
overlooking the crucial role of audio in conveying scene dynamics, speaker
intent, and narrative context. This lack of omni datasets and lightweight,
capable models hampers progress in fine grained, multimodal video
understanding. To address these challenges, we introduce UGC-VideoCap, a new
benchmark and model framework specifically designed for detailed omnimodal
captioning of short form user-generated videos. Unlike prior datasets,
UGC-VideoCap emphasizes balanced integration of audio and visual modalities,
featuring 1000 TikTok videos annotated through a structured three stage
human-in-the-loop pipeline covering audio only, visual only, and joint audio
visual semantics. The benchmark also includes 4000 carefully crafted QA pairs
probing both unimodal and cross modal understanding. Alongside the dataset, we
propose UGC-VideoCaptioner(3B), a 3B parameter captioning model distilled from
Gemini 2.5 Flash. Using a novel two-stage training strategy supervised fine
tuning followed by Group Relative Policy Optimization (GRPO), our approach
enables efficient adaptation from limited data while maintaining competitive
performance. Together, our benchmark and model offer a high-quality foundation
and a data-efficient solution for advancing omnimodal video captioning in
unconstrained real-world UGC settings.