UGC-VideoCaptioner: 모든 UGC 비디오 세부 설명 모델 및 새로운 벤치마크
UGC-VideoCaptioner: An Omni UGC Video Detail Caption Model and New Benchmarks
July 15, 2025
저자: Peiran Wu, Yunze Liu, Zhengdong Zhu, Enmin Zhou, Shawn Shen
cs.AI
초록
실제 사용자 생성 콘텐츠(UGC) 비디오, 특히 TikTok과 같은 플랫폼에서의 비디오는 풍부하고 복잡하게 얽힌 오디오-비주얼 콘텐츠를 특징으로 합니다. 그러나 기존의 비디오 캡셔닝 벤치마크와 모델은 여전히 주로 시각 중심으로 설계되어, 장면의 역동성, 화자의 의도, 그리고 서사적 맥락을 전달하는 데 있어 오디오의 중요한 역할을 간과하고 있습니다. 이러한 전방위적 데이터셋과 가볍고 강력한 모델의 부재는 세밀한 다중모드 비디오 이해의 발전을 저해하고 있습니다. 이러한 문제를 해결하기 위해, 우리는 짧은 형식의 사용자 생성 비디오를 위한 상세한 전방위적 캡셔닝을 위해 특별히 설계된 새로운 벤치마크 및 모델 프레임워크인 UGC-VideoCap을 소개합니다. 기존 데이터셋과 달리, UGC-VideoCap은 오디오와 시각적 모달리티의 균형 잡힌 통합을 강조하며, 오디오만, 시각만, 그리고 오디오-비주얼 시맨틱스를 모두 포함하는 구조화된 3단계 인간-참여 파이프라인을 통해 주석이 달린 1000개의 TikTok 비디오를 특징으로 합니다. 또한, 이 벤치마크는 단일 모드 및 교차 모드 이해를 탐구하는 4000개의 신중하게 제작된 QA 쌍을 포함합니다. 데이터셋과 함께, 우리는 Gemini 2.5 Flash에서 증류된 30억 파라미터 캡셔닝 모델인 UGC-VideoCaptioner(3B)를 제안합니다. 새로운 2단계 훈련 전략인 지도 미세 조정과 그룹 상대 정책 최적화(GRPO)를 사용하여, 우리의 접근 방식은 제한된 데이터에서도 효율적인 적응을 가능하게 하면서 경쟁력 있는 성능을 유지합니다. 우리의 벤치마크와 모델은 제약 없는 실제 UGC 환경에서 전방위적 비디오 캡셔닝을 발전시키기 위한 고품질의 기반과 데이터 효율적인 솔루션을 제공합니다.
English
Real-world user-generated videos, especially on platforms like TikTok, often
feature rich and intertwined audio visual content. However, existing video
captioning benchmarks and models remain predominantly visual centric,
overlooking the crucial role of audio in conveying scene dynamics, speaker
intent, and narrative context. This lack of omni datasets and lightweight,
capable models hampers progress in fine grained, multimodal video
understanding. To address these challenges, we introduce UGC-VideoCap, a new
benchmark and model framework specifically designed for detailed omnimodal
captioning of short form user-generated videos. Unlike prior datasets,
UGC-VideoCap emphasizes balanced integration of audio and visual modalities,
featuring 1000 TikTok videos annotated through a structured three stage
human-in-the-loop pipeline covering audio only, visual only, and joint audio
visual semantics. The benchmark also includes 4000 carefully crafted QA pairs
probing both unimodal and cross modal understanding. Alongside the dataset, we
propose UGC-VideoCaptioner(3B), a 3B parameter captioning model distilled from
Gemini 2.5 Flash. Using a novel two-stage training strategy supervised fine
tuning followed by Group Relative Policy Optimization (GRPO), our approach
enables efficient adaptation from limited data while maintaining competitive
performance. Together, our benchmark and model offer a high-quality foundation
and a data-efficient solution for advancing omnimodal video captioning in
unconstrained real-world UGC settings.