UGC-VideoCaptioner: Ein universelles Modell zur Detailbeschreibung von UGC-Videos und neue Benchmark-Datensätze
UGC-VideoCaptioner: An Omni UGC Video Detail Caption Model and New Benchmarks
July 15, 2025
papers.authors: Peiran Wu, Yunze Liu, Zhengdong Zhu, Enmin Zhou, Shawn Shen
cs.AI
papers.abstract
In der realen Welt erstellte Nutzervideos, insbesondere auf Plattformen wie TikTok, weisen oft reichhaltige und miteinander verwobene audiovisuelle Inhalte auf. Bestehende Benchmarks und Modelle für die Videobeschriftung bleiben jedoch überwiegend visuell zentriert und übersehen die entscheidende Rolle des Audios bei der Vermittlung von Szenendynamik, Sprecherabsicht und narrativem Kontext. Dieser Mangel an omni-Datensätzen und leistungsfähigen, schlanken Modellen behindert den Fortschritt im feingranularen, multimodalen Videoverständnis. Um diese Herausforderungen zu bewältigen, stellen wir UGC-VideoCap vor, einen neuen Benchmark und Modellrahmen, der speziell für die detaillierte omnimodale Beschriftung von kurzformatigen Nutzervideos entwickelt wurde. Im Gegensatz zu früheren Datensätzen betont UGC-VideoCap die ausgewogene Integration von Audio- und visuellen Modalitäten und umfasst 1000 TikTok-Videos, die durch einen strukturierten dreistufigen Human-in-the-Loop-Prozess annotiert wurden, der ausschließlich auditive, ausschließlich visuelle und gemeinsame audiovisuelle Semantik abdeckt. Der Benchmark enthält außerdem 4000 sorgfältig erstellte Frage-Antwort-Paare, die sowohl unimodales als auch cross-modales Verständnis untersuchen. Neben dem Datensatz schlagen wir UGC-VideoCaptioner(3B) vor, ein 3-Milliarden-Parameter-Beschriftungsmodell, das aus Gemini 2.5 Flash destilliert wurde. Durch eine neuartige zweistufige Trainingsstrategie – überwachtes Fein-Tuning gefolgt von Group Relative Policy Optimization (GRPO) – ermöglicht unser Ansatz eine effiziente Anpassung mit begrenzten Daten bei gleichzeitiger Aufrechterhaltung einer wettbewerbsfähigen Leistung. Zusammen bieten unser Benchmark und Modell eine hochwertige Grundlage und eine dateneffiziente Lösung zur Weiterentwicklung der omnimodalen Videobeschriftung in ungezwungenen realen UGC-Umgebungen.
English
Real-world user-generated videos, especially on platforms like TikTok, often
feature rich and intertwined audio visual content. However, existing video
captioning benchmarks and models remain predominantly visual centric,
overlooking the crucial role of audio in conveying scene dynamics, speaker
intent, and narrative context. This lack of omni datasets and lightweight,
capable models hampers progress in fine grained, multimodal video
understanding. To address these challenges, we introduce UGC-VideoCap, a new
benchmark and model framework specifically designed for detailed omnimodal
captioning of short form user-generated videos. Unlike prior datasets,
UGC-VideoCap emphasizes balanced integration of audio and visual modalities,
featuring 1000 TikTok videos annotated through a structured three stage
human-in-the-loop pipeline covering audio only, visual only, and joint audio
visual semantics. The benchmark also includes 4000 carefully crafted QA pairs
probing both unimodal and cross modal understanding. Alongside the dataset, we
propose UGC-VideoCaptioner(3B), a 3B parameter captioning model distilled from
Gemini 2.5 Flash. Using a novel two-stage training strategy supervised fine
tuning followed by Group Relative Policy Optimization (GRPO), our approach
enables efficient adaptation from limited data while maintaining competitive
performance. Together, our benchmark and model offer a high-quality foundation
and a data-efficient solution for advancing omnimodal video captioning in
unconstrained real-world UGC settings.