ChatPaper.aiChatPaper

ARC-Hunyuan-Video-7B: Comprensione Strutturata di Video Brevi del Mondo Reale

ARC-Hunyuan-Video-7B: Structured Video Comprehension of Real-World Shorts

July 28, 2025
Autori: Yuying Ge, Yixiao Ge, Chen Li, Teng Wang, Junfu Pu, Yizhuo Li, Lu Qiu, Jin Ma, Lisheng Duan, Xinyu Zuo, Jinwen Luo, Weibo Gu, Zexuan Li, Xiaojing Zhang, Yangyu Tao, Han Hu, Di Wang, Ying Shan
cs.AI

Abstract

I video brevi generati dagli utenti nel mondo reale, in particolare quelli distribuiti su piattaforme come WeChat Channel e TikTok, dominano l’internet mobile. Tuttavia, gli attuali modelli multimodali di grandi dimensioni mancano di capacità essenziali di comprensione video strutturata temporalmente, dettagliata e approfondita, che sono la base per una ricerca e raccomandazione video efficace, nonché per le applicazioni video emergenti. Comprendere i video brevi del mondo reale è effettivamente impegnativo a causa dei loro elementi visivi complessi, dell’elevata densità di informazioni sia visive che audio e del ritmo veloce che si concentra sull’espressione emotiva e sulla trasmissione di punti di vista. Ciò richiede un ragionamento avanzato per integrare efficacemente informazioni multimodali, tra cui visive, audio e testuali. In questo lavoro, introduciamo ARC-Hunyuan-Video, un modello multimodale che elabora segnali visivi, audio e testuali da input video grezzi end-to-end per una comprensione strutturata. Il modello è in grado di generare didascalie e riassunti video con timestamp multi-granularità, rispondere a domande aperte sui video, effettuare il grounding temporale dei video e ragionare sui video. Sfruttando dati di alta qualità provenienti da una pipeline di annotazione automatizzata, il nostro modello compatto da 7 miliardi di parametri viene addestrato attraverso un regime completo: pre-training, fine-tuning su istruzioni, avvio a freddo, post-training con apprendimento per rinforzo (RL) e fine-tuning finale su istruzioni. Le valutazioni quantitative sul nostro benchmark introdotto ShortVid-Bench e i confronti qualitativi dimostrano le sue prestazioni solide nella comprensione video del mondo reale, e supporta applicazioni downstream diverse con zero-shot o fine-tuning con pochi campioni. Il deployment in produzione del nostro modello nel mondo reale ha portato a miglioramenti tangibili e misurabili nell’engagement e nella soddisfazione degli utenti, un successo supportato dalla sua notevole efficienza, con test di stress che indicano un tempo di inferenza di soli 10 secondi per un video di un minuto su GPU H20.
English
Real-world user-generated short videos, especially those distributed on platforms such as WeChat Channel and TikTok, dominate the mobile internet. However, current large multimodal models lack essential temporally-structured, detailed, and in-depth video comprehension capabilities, which are the cornerstone of effective video search and recommendation, as well as emerging video applications. Understanding real-world shorts is actually challenging due to their complex visual elements, high information density in both visuals and audio, and fast pacing that focuses on emotional expression and viewpoint delivery. This requires advanced reasoning to effectively integrate multimodal information, including visual, audio, and text. In this work, we introduce ARC-Hunyuan-Video, a multimodal model that processes visual, audio, and textual signals from raw video inputs end-to-end for structured comprehension. The model is capable of multi-granularity timestamped video captioning and summarization, open-ended video question answering, temporal video grounding, and video reasoning. Leveraging high-quality data from an automated annotation pipeline, our compact 7B-parameter model is trained through a comprehensive regimen: pre-training, instruction fine-tuning, cold start, reinforcement learning (RL) post-training, and final instruction fine-tuning. Quantitative evaluations on our introduced benchmark ShortVid-Bench and qualitative comparisons demonstrate its strong performance in real-world video comprehension, and it supports zero-shot or fine-tuning with a few samples for diverse downstream applications. The real-world production deployment of our model has yielded tangible and measurable improvements in user engagement and satisfaction, a success supported by its remarkable efficiency, with stress tests indicating an inference time of just 10 seconds for a one-minute video on H20 GPU.
PDF552July 29, 2025