ARC-Hunyuan-Video-7B: Gestructureerd Video-begrip van Real-World Shorts
ARC-Hunyuan-Video-7B: Structured Video Comprehension of Real-World Shorts
July 28, 2025
Auteurs: Yuying Ge, Yixiao Ge, Chen Li, Teng Wang, Junfu Pu, Yizhuo Li, Lu Qiu, Jin Ma, Lisheng Duan, Xinyu Zuo, Jinwen Luo, Weibo Gu, Zexuan Li, Xiaojing Zhang, Yangyu Tao, Han Hu, Di Wang, Ying Shan
cs.AI
Samenvatting
Door gebruikers gegenereerde korte video's uit de echte wereld, vooral die welke worden verspreid op platforms zoals WeChat Channel en TikTok, domineren het mobiele internet. Huidige grote multimodale modellen missen echter essentiële, tijdelijk gestructureerde, gedetailleerde en diepgaande video-begripscapaciteiten, die de hoeksteen vormen van effectieve videozoekopdrachten en -aanbevelingen, evenals van opkomende videotoepassingen. Het begrijpen van real-world shorts is eigenlijk uitdagend vanwege hun complexe visuele elementen, hoge informatiedichtheid in zowel beeld als geluid, en het snelle tempo dat gericht is op emotionele expressie en het overbrengen van standpunten. Dit vereist geavanceerd redeneren om multimodale informatie, waaronder visuele, auditieve en tekstuele informatie, effectief te integreren. In dit werk introduceren we ARC-Hunyuan-Video, een multimodaal model dat visuele, auditieve en tekstuele signalen van ruwe video-invoer end-to-end verwerkt voor gestructureerd begrip. Het model is in staat tot multi-granulariteit tijdgestempelde videobeschrijving en -samenvatting, open-einde video-vraagbeantwoording, tijdelijk videogebondenheid en videoredenering. Door gebruik te maken van hoogwaardige gegevens uit een geautomatiseerde annotatiepijplijn, wordt ons compacte 7B-parameter model getraind via een uitgebreid regime: pre-training, instructie-finetuning, koude start, reinforcement learning (RL) post-training en uiteindelijke instructie-finetuning. Kwantitatieve evaluaties op onze geïntroduceerde benchmark ShortVid-Bench en kwalitatieve vergelijkingen tonen de sterke prestaties aan in het begrijpen van real-world video's, en het ondersteunt zero-shot of finetuning met enkele voorbeelden voor diverse downstream-toepassingen. De real-world productie-implementatie van ons model heeft tastbare en meetbare verbeteringen opgeleverd in gebruikersbetrokkenheid en -tevredenheid, een succes dat wordt ondersteund door zijn opmerkelijke efficiëntie, met stresstests die een inferentietijd van slechts 10 seconden voor een één minuut durende video op H20 GPU aangeven.
English
Real-world user-generated short videos, especially those distributed on
platforms such as WeChat Channel and TikTok, dominate the mobile internet.
However, current large multimodal models lack essential temporally-structured,
detailed, and in-depth video comprehension capabilities, which are the
cornerstone of effective video search and recommendation, as well as emerging
video applications. Understanding real-world shorts is actually challenging due
to their complex visual elements, high information density in both visuals and
audio, and fast pacing that focuses on emotional expression and viewpoint
delivery. This requires advanced reasoning to effectively integrate multimodal
information, including visual, audio, and text. In this work, we introduce
ARC-Hunyuan-Video, a multimodal model that processes visual, audio, and textual
signals from raw video inputs end-to-end for structured comprehension. The
model is capable of multi-granularity timestamped video captioning and
summarization, open-ended video question answering, temporal video grounding,
and video reasoning. Leveraging high-quality data from an automated annotation
pipeline, our compact 7B-parameter model is trained through a comprehensive
regimen: pre-training, instruction fine-tuning, cold start, reinforcement
learning (RL) post-training, and final instruction fine-tuning. Quantitative
evaluations on our introduced benchmark ShortVid-Bench and qualitative
comparisons demonstrate its strong performance in real-world video
comprehension, and it supports zero-shot or fine-tuning with a few samples for
diverse downstream applications. The real-world production deployment of our
model has yielded tangible and measurable improvements in user engagement and
satisfaction, a success supported by its remarkable efficiency, with stress
tests indicating an inference time of just 10 seconds for a one-minute video on
H20 GPU.