ChatPaper.aiChatPaper

UGC-VideoCaptioner: Un Modelo Omnicomprensivo para Generación de Subtítulos en Videos UGC y Nuevos Puntos de Referencia

UGC-VideoCaptioner: An Omni UGC Video Detail Caption Model and New Benchmarks

July 15, 2025
Autores: Peiran Wu, Yunze Liu, Zhengdong Zhu, Enmin Zhou, Shawn Shen
cs.AI

Resumen

Los videos generados por usuarios en el mundo real, especialmente en plataformas como TikTok, suelen presentar contenido audiovisual rico e interconectado. Sin embargo, los puntos de referencia y modelos existentes para la generación de descripciones de videos siguen siendo predominantemente centrados en lo visual, pasando por alto el papel crucial del audio para transmitir la dinámica de la escena, la intención del hablante y el contexto narrativo. Esta falta de conjuntos de datos omni y de modelos ligeros y capaces obstaculiza el progreso en la comprensión multimodal y detallada de videos. Para abordar estos desafíos, presentamos UGC-VideoCap, un nuevo punto de referencia y marco de modelos diseñado específicamente para la generación detallada de descripciones omni-modales de videos cortos generados por usuarios. A diferencia de conjuntos de datos anteriores, UGC-VideoCap enfatiza la integración equilibrada de las modalidades de audio y visual, presentando 1000 videos de TikTok anotados a través de un proceso estructurado de tres etapas con intervención humana, que cubre semántica solo de audio, solo visual y conjunta audiovisual. El punto de referencia también incluye 4000 pares de preguntas y respuestas cuidadosamente elaborados que exploran tanto la comprensión unimodal como la cruzada entre modalidades. Junto con el conjunto de datos, proponemos UGC-VideoCaptioner(3B), un modelo de generación de descripciones con 3 mil millones de parámetros destilado de Gemini 2.5 Flash. Utilizando una novedosa estrategia de entrenamiento en dos etapas (ajuste fino supervisado seguido de Optimización de Política Relativa en Grupo, GRPO), nuestro enfoque permite una adaptación eficiente a partir de datos limitados mientras mantiene un rendimiento competitivo. Juntos, nuestro punto de referencia y modelo ofrecen una base de alta calidad y una solución eficiente en términos de datos para avanzar en la generación de descripciones omni-modales de videos en entornos no restringidos de contenido generado por usuarios (UGC).
English
Real-world user-generated videos, especially on platforms like TikTok, often feature rich and intertwined audio visual content. However, existing video captioning benchmarks and models remain predominantly visual centric, overlooking the crucial role of audio in conveying scene dynamics, speaker intent, and narrative context. This lack of omni datasets and lightweight, capable models hampers progress in fine grained, multimodal video understanding. To address these challenges, we introduce UGC-VideoCap, a new benchmark and model framework specifically designed for detailed omnimodal captioning of short form user-generated videos. Unlike prior datasets, UGC-VideoCap emphasizes balanced integration of audio and visual modalities, featuring 1000 TikTok videos annotated through a structured three stage human-in-the-loop pipeline covering audio only, visual only, and joint audio visual semantics. The benchmark also includes 4000 carefully crafted QA pairs probing both unimodal and cross modal understanding. Alongside the dataset, we propose UGC-VideoCaptioner(3B), a 3B parameter captioning model distilled from Gemini 2.5 Flash. Using a novel two-stage training strategy supervised fine tuning followed by Group Relative Policy Optimization (GRPO), our approach enables efficient adaptation from limited data while maintaining competitive performance. Together, our benchmark and model offer a high-quality foundation and a data-efficient solution for advancing omnimodal video captioning in unconstrained real-world UGC settings.
PDF21July 16, 2025