ChatPaper.aiChatPaper

ARC-Hunyuan-Video-7B: Comprensión Estructurada de Videos Cortos del Mundo Real

ARC-Hunyuan-Video-7B: Structured Video Comprehension of Real-World Shorts

July 28, 2025
Autores: Yuying Ge, Yixiao Ge, Chen Li, Teng Wang, Junfu Pu, Yizhuo Li, Lu Qiu, Jin Ma, Lisheng Duan, Xinyu Zuo, Jinwen Luo, Weibo Gu, Zexuan Li, Xiaojing Zhang, Yangyu Tao, Han Hu, Di Wang, Ying Shan
cs.AI

Resumen

Los videos cortos generados por usuarios en el mundo real, especialmente aquellos distribuidos en plataformas como WeChat Channel y TikTok, dominan el internet móvil. Sin embargo, los modelos multimodales grandes actuales carecen de capacidades esenciales de comprensión de video estructurada temporalmente, detallada y en profundidad, que son la base para una búsqueda y recomendación de videos efectiva, así como para aplicaciones emergentes de video. Comprender los videos cortos del mundo real es en realidad un desafío debido a sus elementos visuales complejos, la alta densidad de información tanto en lo visual como en lo auditivo, y el ritmo acelerado que se centra en la expresión emocional y la entrega de puntos de vista. Esto requiere un razonamiento avanzado para integrar de manera efectiva información multimodal, incluyendo lo visual, lo auditivo y el texto. En este trabajo, presentamos ARC-Hunyuan-Video, un modelo multimodal que procesa señales visuales, auditivas y textuales de entradas de video en bruto de extremo a extremo para una comprensión estructurada. El modelo es capaz de generar subtítulos y resúmenes de video con marcas de tiempo de múltiples granularidades, responder preguntas abiertas sobre videos, realizar anclaje temporal de video y razonamiento sobre videos. Aprovechando datos de alta calidad de una canalización de anotación automatizada, nuestro modelo compacto de 7B parámetros se entrena mediante un régimen integral: preentrenamiento, ajuste fino por instrucciones, inicio en frío, aprendizaje por refuerzo (RL) posterior al entrenamiento y ajuste final por instrucciones. Las evaluaciones cuantitativas en nuestro nuevo benchmark ShortVid-Bench y las comparaciones cualitativas demuestran su fuerte desempeño en la comprensión de videos del mundo real, y admite aplicaciones descendentes diversas con pocas muestras en modo zero-shot o con ajuste fino. El despliegue en producción de nuestro modelo ha generado mejoras tangibles y medibles en la participación y satisfacción del usuario, un éxito respaldado por su notable eficiencia, con pruebas de estrés que indican un tiempo de inferencia de solo 10 segundos para un video de un minuto en GPU H20.
English
Real-world user-generated short videos, especially those distributed on platforms such as WeChat Channel and TikTok, dominate the mobile internet. However, current large multimodal models lack essential temporally-structured, detailed, and in-depth video comprehension capabilities, which are the cornerstone of effective video search and recommendation, as well as emerging video applications. Understanding real-world shorts is actually challenging due to their complex visual elements, high information density in both visuals and audio, and fast pacing that focuses on emotional expression and viewpoint delivery. This requires advanced reasoning to effectively integrate multimodal information, including visual, audio, and text. In this work, we introduce ARC-Hunyuan-Video, a multimodal model that processes visual, audio, and textual signals from raw video inputs end-to-end for structured comprehension. The model is capable of multi-granularity timestamped video captioning and summarization, open-ended video question answering, temporal video grounding, and video reasoning. Leveraging high-quality data from an automated annotation pipeline, our compact 7B-parameter model is trained through a comprehensive regimen: pre-training, instruction fine-tuning, cold start, reinforcement learning (RL) post-training, and final instruction fine-tuning. Quantitative evaluations on our introduced benchmark ShortVid-Bench and qualitative comparisons demonstrate its strong performance in real-world video comprehension, and it supports zero-shot or fine-tuning with a few samples for diverse downstream applications. The real-world production deployment of our model has yielded tangible and measurable improvements in user engagement and satisfaction, a success supported by its remarkable efficiency, with stress tests indicating an inference time of just 10 seconds for a one-minute video on H20 GPU.
PDF542July 29, 2025