ChatPaper.aiChatPaper

ARC-Hunyuan-Video-7B : Compréhension structurée de vidéos courtes du monde réel

ARC-Hunyuan-Video-7B: Structured Video Comprehension of Real-World Shorts

July 28, 2025
papers.authors: Yuying Ge, Yixiao Ge, Chen Li, Teng Wang, Junfu Pu, Yizhuo Li, Lu Qiu, Jin Ma, Lisheng Duan, Xinyu Zuo, Jinwen Luo, Weibo Gu, Zexuan Li, Xiaojing Zhang, Yangyu Tao, Han Hu, Di Wang, Ying Shan
cs.AI

papers.abstract

Les vidéos courtes générées par les utilisateurs dans le monde réel, en particulier celles diffusées sur des plateformes comme WeChat Channel et TikTok, dominent l'internet mobile. Cependant, les modèles multimodaux de grande taille actuels manquent de capacités essentielles de compréhension vidéo structurée dans le temps, détaillée et approfondie, qui sont la pierre angulaire d'une recherche et d'une recommandation vidéo efficaces, ainsi que des applications vidéo émergentes. Comprendre les vidéos courtes du monde réel est en réalité un défi en raison de leurs éléments visuels complexes, de leur densité d'information élevée à la fois dans les visuels et l'audio, et de leur rythme rapide axé sur l'expression émotionnelle et la transmission de points de vue. Cela nécessite un raisonnement avancé pour intégrer efficacement des informations multimodales, incluant les visuels, l'audio et le texte. Dans ce travail, nous présentons ARC-Hunyuan-Video, un modèle multimodal qui traite les signaux visuels, audio et textuels des vidéos brutes de bout en bout pour une compréhension structurée. Le modèle est capable de générer des descriptions et des résumés vidéo avec des timestamps multi-granularité, de répondre à des questions ouvertes sur les vidéos, de localiser temporellement des éléments dans les vidéos et de raisonner sur les vidéos. En exploitant des données de haute qualité provenant d'un pipeline d'annotation automatisé, notre modèle compact de 7 milliards de paramètres est entraîné à travers un régime complet : pré-entraînement, ajustement fin par instruction, démarrage à froid, apprentissage par renforcement (RL) post-entraînement, et ajustement fin final par instruction. Les évaluations quantitatives sur notre benchmark ShortVid-Bench et les comparaisons qualitatives démontrent ses performances solides dans la compréhension des vidéos du monde réel, et il supporte le zero-shot ou l'ajustement fin avec quelques échantillons pour diverses applications en aval. Le déploiement en production de notre modèle dans le monde réel a entraîné des améliorations tangibles et mesurables de l'engagement et de la satisfaction des utilisateurs, un succès soutenu par son efficacité remarquable, avec des tests de stress indiquant un temps d'inférence de seulement 10 secondes pour une vidéo d'une minute sur un GPU H20.
English
Real-world user-generated short videos, especially those distributed on platforms such as WeChat Channel and TikTok, dominate the mobile internet. However, current large multimodal models lack essential temporally-structured, detailed, and in-depth video comprehension capabilities, which are the cornerstone of effective video search and recommendation, as well as emerging video applications. Understanding real-world shorts is actually challenging due to their complex visual elements, high information density in both visuals and audio, and fast pacing that focuses on emotional expression and viewpoint delivery. This requires advanced reasoning to effectively integrate multimodal information, including visual, audio, and text. In this work, we introduce ARC-Hunyuan-Video, a multimodal model that processes visual, audio, and textual signals from raw video inputs end-to-end for structured comprehension. The model is capable of multi-granularity timestamped video captioning and summarization, open-ended video question answering, temporal video grounding, and video reasoning. Leveraging high-quality data from an automated annotation pipeline, our compact 7B-parameter model is trained through a comprehensive regimen: pre-training, instruction fine-tuning, cold start, reinforcement learning (RL) post-training, and final instruction fine-tuning. Quantitative evaluations on our introduced benchmark ShortVid-Bench and qualitative comparisons demonstrate its strong performance in real-world video comprehension, and it supports zero-shot or fine-tuning with a few samples for diverse downstream applications. The real-world production deployment of our model has yielded tangible and measurable improvements in user engagement and satisfaction, a success supported by its remarkable efficiency, with stress tests indicating an inference time of just 10 seconds for a one-minute video on H20 GPU.
PDF532July 29, 2025