ARC-Hunyuan-Video-7B: Структурированное понимание видеоконтента реального мира в коротких роликах
ARC-Hunyuan-Video-7B: Structured Video Comprehension of Real-World Shorts
July 28, 2025
Авторы: Yuying Ge, Yixiao Ge, Chen Li, Teng Wang, Junfu Pu, Yizhuo Li, Lu Qiu, Jin Ma, Lisheng Duan, Xinyu Zuo, Jinwen Luo, Weibo Gu, Zexuan Li, Xiaojing Zhang, Yangyu Tao, Han Hu, Di Wang, Ying Shan
cs.AI
Аннотация
Пользовательские короткие видеоролики, особенно те, которые распространяются на платформах, таких как WeChat Channel и TikTok, доминируют в мобильном интернете. Однако современные крупные мультимодальные модели не обладают необходимыми временно-структурированными, детальными и глубокими возможностями понимания видео, которые являются основой эффективного поиска и рекомендации видео, а также новых видеоприложений. Понимание реальных коротких видеороликов является сложной задачей из-за их сложных визуальных элементов, высокой информационной плотности как в визуальном, так и в аудио контенте, а также быстрого темпа, ориентированного на эмоциональное выражение и передачу точки зрения. Это требует продвинутого анализа для эффективного интегрирования мультимодальной информации, включая визуальные, аудио и текстовые данные. В данной работе мы представляем ARC-Hunyuan-Video, мультимодальную модель, которая обрабатывает визуальные, аудио и текстовые сигналы из исходных видеоданных сквозным образом для структурированного понимания. Модель способна к многоуровневому временному описанию и суммированию видео, открытому вопросно-ответному взаимодействию с видео, временному привязыванию видео и видеорассуждению. Используя высококачественные данные из автоматизированного конвейера аннотирования, наша компактная модель с 7 миллиардами параметров обучается через комплексный режим: предварительное обучение, тонкая настройка инструкций, холодный старт, обучение с подкреплением (RL) после обучения и финальная тонкая настройка инструкций. Количественные оценки на нашем новом бенчмарке ShortVid-Bench и качественные сравнения демонстрируют её высокую производительность в понимании реальных видеороликов, а также поддержку нулевого обучения или тонкой настройки с небольшим количеством образцов для разнообразных приложений. Реальное производственное внедрение нашей модели привело к ощутимым и измеримым улучшениям в вовлеченности и удовлетворенности пользователей, что подтверждается её выдающейся эффективностью: стресс-тесты показывают время вывода всего 10 секунд для одноминутного видео на GPU H20.
English
Real-world user-generated short videos, especially those distributed on
platforms such as WeChat Channel and TikTok, dominate the mobile internet.
However, current large multimodal models lack essential temporally-structured,
detailed, and in-depth video comprehension capabilities, which are the
cornerstone of effective video search and recommendation, as well as emerging
video applications. Understanding real-world shorts is actually challenging due
to their complex visual elements, high information density in both visuals and
audio, and fast pacing that focuses on emotional expression and viewpoint
delivery. This requires advanced reasoning to effectively integrate multimodal
information, including visual, audio, and text. In this work, we introduce
ARC-Hunyuan-Video, a multimodal model that processes visual, audio, and textual
signals from raw video inputs end-to-end for structured comprehension. The
model is capable of multi-granularity timestamped video captioning and
summarization, open-ended video question answering, temporal video grounding,
and video reasoning. Leveraging high-quality data from an automated annotation
pipeline, our compact 7B-parameter model is trained through a comprehensive
regimen: pre-training, instruction fine-tuning, cold start, reinforcement
learning (RL) post-training, and final instruction fine-tuning. Quantitative
evaluations on our introduced benchmark ShortVid-Bench and qualitative
comparisons demonstrate its strong performance in real-world video
comprehension, and it supports zero-shot or fine-tuning with a few samples for
diverse downstream applications. The real-world production deployment of our
model has yielded tangible and measurable improvements in user engagement and
satisfaction, a success supported by its remarkable efficiency, with stress
tests indicating an inference time of just 10 seconds for a one-minute video on
H20 GPU.