ChatPaper.aiChatPaper

ARC-Hunyuan-Video-7B: 현실 세계의 짧은 영상에 대한 구조화된 비디오 이해

ARC-Hunyuan-Video-7B: Structured Video Comprehension of Real-World Shorts

July 28, 2025
저자: Yuying Ge, Yixiao Ge, Chen Li, Teng Wang, Junfu Pu, Yizhuo Li, Lu Qiu, Jin Ma, Lisheng Duan, Xinyu Zuo, Jinwen Luo, Weibo Gu, Zexuan Li, Xiaojing Zhang, Yangyu Tao, Han Hu, Di Wang, Ying Shan
cs.AI

초록

실제 사용자 생성 짧은 동영상, 특히 WeChat 채널과 TikTok과 같은 플랫폼에서 배포되는 동영상들은 모바일 인터넷을 지배하고 있습니다. 그러나 현재의 대규모 멀티모달 모델들은 효과적인 동영상 검색 및 추천, 그리고 신흥 동영상 애플리케이션의 기반이 되는 필수적인 시간 구조화된 상세하고 심층적인 동영상 이해 능력이 부족합니다. 실제 짧은 동영상을 이해하는 것은 복잡한 시각 요소, 시각 및 오디오 모두에서 높은 정보 밀도, 그리고 감정 표현과 관점 전달에 초점을 맞춘 빠른 속도로 인해 사실상 어려운 과제입니다. 이는 시각, 오디오, 텍스트를 포함한 멀티모달 정보를 효과적으로 통합하기 위한 고급 추론을 요구합니다. 본 연구에서는 원시 동영상 입력으로부터 시각, 오디오, 텍스트 신호를 종단 간 처리하여 구조화된 이해를 수행하는 멀티모달 모델인 ARC-Hunyuan-Video를 소개합니다. 이 모델은 다중 세분화 타임스탬프 동영상 캡셔닝 및 요약, 개방형 동영상 질의응답, 시간적 동영상 그라운딩, 동영상 추론이 가능합니다. 자동화된 주석 파이프라인에서 얻은 고품질 데이터를 활용하여, 우리의 컴팩트한 7B 파라미터 모델은 사전 학습, 지시 미세 조정, 콜드 스타트, 강화 학습(RL) 사후 학습, 그리고 최종 지시 미세 조정을 포함한 포괄적인 학습 과정을 통해 훈련되었습니다. 우리가 도입한 벤치마크 ShortVid-Bench에 대한 정량적 평가와 질적 비교는 이 모델이 실제 동영상 이해에서 강력한 성능을 보여주며, 다양한 다운스트림 애플리케이션을 위해 제로샷 또는 소량의 샘플로 미세 조정을 지원함을 입증합니다. 우리 모델의 실제 생산 배포는 사용자 참여와 만족도에서 실질적이고 측정 가능한 개선을 가져왔으며, H20 GPU에서 1분 길이의 동영상에 대해 단 10초의 추론 시간을 보여주는 스트레스 테스트를 통해 그 놀라운 효율성을 입증받았습니다.
English
Real-world user-generated short videos, especially those distributed on platforms such as WeChat Channel and TikTok, dominate the mobile internet. However, current large multimodal models lack essential temporally-structured, detailed, and in-depth video comprehension capabilities, which are the cornerstone of effective video search and recommendation, as well as emerging video applications. Understanding real-world shorts is actually challenging due to their complex visual elements, high information density in both visuals and audio, and fast pacing that focuses on emotional expression and viewpoint delivery. This requires advanced reasoning to effectively integrate multimodal information, including visual, audio, and text. In this work, we introduce ARC-Hunyuan-Video, a multimodal model that processes visual, audio, and textual signals from raw video inputs end-to-end for structured comprehension. The model is capable of multi-granularity timestamped video captioning and summarization, open-ended video question answering, temporal video grounding, and video reasoning. Leveraging high-quality data from an automated annotation pipeline, our compact 7B-parameter model is trained through a comprehensive regimen: pre-training, instruction fine-tuning, cold start, reinforcement learning (RL) post-training, and final instruction fine-tuning. Quantitative evaluations on our introduced benchmark ShortVid-Bench and qualitative comparisons demonstrate its strong performance in real-world video comprehension, and it supports zero-shot or fine-tuning with a few samples for diverse downstream applications. The real-world production deployment of our model has yielded tangible and measurable improvements in user engagement and satisfaction, a success supported by its remarkable efficiency, with stress tests indicating an inference time of just 10 seconds for a one-minute video on H20 GPU.
PDF542July 29, 2025