ARC-Hunyuan-Video-7B: Compreensão Estruturada de Vídeos Curtos do Mundo Real
ARC-Hunyuan-Video-7B: Structured Video Comprehension of Real-World Shorts
July 28, 2025
Autores: Yuying Ge, Yixiao Ge, Chen Li, Teng Wang, Junfu Pu, Yizhuo Li, Lu Qiu, Jin Ma, Lisheng Duan, Xinyu Zuo, Jinwen Luo, Weibo Gu, Zexuan Li, Xiaojing Zhang, Yangyu Tao, Han Hu, Di Wang, Ying Shan
cs.AI
Resumo
Vídeos curtos gerados por usuários no mundo real, especialmente aqueles distribuídos em plataformas como WeChat Channel e TikTok, dominam a internet móvel. No entanto, os atuais modelos multimodais de grande escala carecem de capacidades essenciais de compreensão de vídeo estruturada temporalmente, detalhada e aprofundada, que são a base para uma busca e recomendação eficaz de vídeos, bem como para aplicações emergentes de vídeo. Compreender vídeos curtos do mundo real é, na verdade, desafiador devido aos seus elementos visuais complexos, alta densidade de informação tanto em elementos visuais quanto em áudio, e ritmo acelerado que se concentra na expressão emocional e na entrega de pontos de vista. Isso exige raciocínio avançado para integrar efetivamente informações multimodais, incluindo visuais, áudio e texto. Neste trabalho, apresentamos o ARC-Hunyuan-Video, um modelo multimodal que processa sinais visuais, de áudio e textuais a partir de entradas de vídeo brutas de ponta a ponta para uma compreensão estruturada. O modelo é capaz de legendagem e resumo de vídeo com marcação temporal de múltiplas granularidades, resposta a perguntas abertas sobre vídeos, localização temporal em vídeos e raciocínio sobre vídeos. Aproveitando dados de alta qualidade de um pipeline de anotação automatizada, nosso modelo compacto de 7 bilhões de parâmetros é treinado por meio de um regime abrangente: pré-treinamento, ajuste fino por instrução, início a frio, pós-treinamento com aprendizado por reforço (RL) e ajuste final por instrução. Avaliações quantitativas em nosso benchmark introduzido, ShortVid-Bench, e comparações qualitativas demonstram seu forte desempenho na compreensão de vídeos do mundo real, e ele suporta zero-shot ou ajuste fino com poucas amostras para diversas aplicações downstream. A implantação em produção do nosso modelo no mundo real resultou em melhorias tangíveis e mensuráveis no engajamento e satisfação do usuário, um sucesso apoiado por sua notável eficiência, com testes de estresse indicando um tempo de inferência de apenas 10 segundos para um vídeo de um minuto em GPU H20.
English
Real-world user-generated short videos, especially those distributed on
platforms such as WeChat Channel and TikTok, dominate the mobile internet.
However, current large multimodal models lack essential temporally-structured,
detailed, and in-depth video comprehension capabilities, which are the
cornerstone of effective video search and recommendation, as well as emerging
video applications. Understanding real-world shorts is actually challenging due
to their complex visual elements, high information density in both visuals and
audio, and fast pacing that focuses on emotional expression and viewpoint
delivery. This requires advanced reasoning to effectively integrate multimodal
information, including visual, audio, and text. In this work, we introduce
ARC-Hunyuan-Video, a multimodal model that processes visual, audio, and textual
signals from raw video inputs end-to-end for structured comprehension. The
model is capable of multi-granularity timestamped video captioning and
summarization, open-ended video question answering, temporal video grounding,
and video reasoning. Leveraging high-quality data from an automated annotation
pipeline, our compact 7B-parameter model is trained through a comprehensive
regimen: pre-training, instruction fine-tuning, cold start, reinforcement
learning (RL) post-training, and final instruction fine-tuning. Quantitative
evaluations on our introduced benchmark ShortVid-Bench and qualitative
comparisons demonstrate its strong performance in real-world video
comprehension, and it supports zero-shot or fine-tuning with a few samples for
diverse downstream applications. The real-world production deployment of our
model has yielded tangible and measurable improvements in user engagement and
satisfaction, a success supported by its remarkable efficiency, with stress
tests indicating an inference time of just 10 seconds for a one-minute video on
H20 GPU.