ChatPaper.aiChatPaper

ARC-Hunyuan-Video-7B: Strukturiertes Videoverständnis von realen Kurzvideos

ARC-Hunyuan-Video-7B: Structured Video Comprehension of Real-World Shorts

July 28, 2025
papers.authors: Yuying Ge, Yixiao Ge, Chen Li, Teng Wang, Junfu Pu, Yizhuo Li, Lu Qiu, Jin Ma, Lisheng Duan, Xinyu Zuo, Jinwen Luo, Weibo Gu, Zexuan Li, Xiaojing Zhang, Yangyu Tao, Han Hu, Di Wang, Ying Shan
cs.AI

papers.abstract

Echtweltliche, von Nutzern generierte Kurzvideos, insbesondere solche, die auf Plattformen wie WeChat Channel und TikTok verbreitet werden, dominieren das mobile Internet. Allerdings fehlen aktuellen großen multimodalen Modellen wesentliche zeitlich strukturierte, detaillierte und tiefgehende Video-Verständnisfähigkeiten, die die Grundlage für effektive Video-Suche und -Empfehlungen sowie für neuartige Videoanwendungen bilden. Das Verständnis von realweltlichen Kurzvideos ist tatsächlich herausfordernd, da sie komplexe visuelle Elemente, eine hohe Informationsdichte sowohl in den visuellen als auch in den auditiven Komponenten und eine schnelle Abfolge aufweisen, die sich auf emotionale Ausdrücke und die Vermittlung von Standpunkten konzentriert. Dies erfordert fortgeschrittene Schlussfolgerungen, um multimodale Informationen, einschließlich visueller, auditiver und textueller Daten, effektiv zu integrieren. In dieser Arbeit stellen wir ARC-Hunyuan-Video vor, ein multimodales Modell, das visuelle, auditive und textuelle Signale aus Rohvideo-Eingaben end-to-end für strukturiertes Verständnis verarbeitet. Das Modell ist in der Lage, mehrgranulare, zeitgestempelte Video-Beschreibungen und Zusammenfassungen zu erstellen, offene Video-Fragen zu beantworten, zeitliche Video-Verankerungen vorzunehmen und Video-Schlussfolgerungen zu ziehen. Durch die Nutzung hochwertiger Daten aus einer automatisierten Annotationspipeline wird unser kompaktes 7B-Parameter-Modell durch ein umfassendes Trainingsregime trainiert: Vorabtraining, Instruktions-Feintuning, Kaltstart, Verstärkungslernen (RL) nach dem Training und abschließendes Instruktions-Feintuning. Quantitative Bewertungen auf unserem eingeführten Benchmark ShortVid-Bench und qualitative Vergleiche demonstrieren seine starke Leistung im Verständnis realweltlicher Videos, und es unterstützt Zero-Shot oder Feintuning mit wenigen Beispielen für diverse Downstream-Anwendungen. Die produktive Bereitstellung unseres Modells in der realen Welt hat greifbare und messbare Verbesserungen in der Nutzerbindung und -zufriedenheit erzielt, ein Erfolg, der durch seine bemerkenswerte Effizienz unterstützt wird, wobei Stresstests eine Inferenzzeit von nur 10 Sekunden für ein einminütiges Video auf einer H20 GPU anzeigen.
English
Real-world user-generated short videos, especially those distributed on platforms such as WeChat Channel and TikTok, dominate the mobile internet. However, current large multimodal models lack essential temporally-structured, detailed, and in-depth video comprehension capabilities, which are the cornerstone of effective video search and recommendation, as well as emerging video applications. Understanding real-world shorts is actually challenging due to their complex visual elements, high information density in both visuals and audio, and fast pacing that focuses on emotional expression and viewpoint delivery. This requires advanced reasoning to effectively integrate multimodal information, including visual, audio, and text. In this work, we introduce ARC-Hunyuan-Video, a multimodal model that processes visual, audio, and textual signals from raw video inputs end-to-end for structured comprehension. The model is capable of multi-granularity timestamped video captioning and summarization, open-ended video question answering, temporal video grounding, and video reasoning. Leveraging high-quality data from an automated annotation pipeline, our compact 7B-parameter model is trained through a comprehensive regimen: pre-training, instruction fine-tuning, cold start, reinforcement learning (RL) post-training, and final instruction fine-tuning. Quantitative evaluations on our introduced benchmark ShortVid-Bench and qualitative comparisons demonstrate its strong performance in real-world video comprehension, and it supports zero-shot or fine-tuning with a few samples for diverse downstream applications. The real-world production deployment of our model has yielded tangible and measurable improvements in user engagement and satisfaction, a success supported by its remarkable efficiency, with stress tests indicating an inference time of just 10 seconds for a one-minute video on H20 GPU.
PDF542July 29, 2025