Vidi : Modèles Multimodaux à Grande Échelle pour la Compréhension et l'Édition Vidéo
Vidi: Large Multimodal Models for Video Understanding and Editing
April 22, 2025
Auteurs: Vidi Team, Celong Liu, Chia-Wen Kuo, Dawei Du, Fan Chen, Guang Chen, Jiamin Yuan, Lingxi Zhang, Lu Guo, Lusha Li, Longyin Wen, Qingyu Chen, Rachel Deng, Sijie Zhu, Stuart Siew, Tong Jin, Wei Lu, Wen Zhong, Xiaohui Shen, Xin Gu, Xing Mei, Xueqiong Qu
cs.AI
Résumé
Les humains partagent naturellement des informations avec leurs proches, et la vidéo est devenue l'un des principaux médias de communication et d'expression sur Internet. Pour soutenir la création de contenus vidéo à grande échelle et de haute qualité, un pipeline moderne nécessite une compréhension approfondie à la fois des matériaux bruts (par exemple, les séquences non montées capturées par les caméras) et des composants d'édition (par exemple, les effets visuels). Dans les scénarios de montage vidéo, les modèles doivent traiter plusieurs modalités (par exemple, la vision, l'audio, le texte) avec une solide connaissance de fond et gérer des longueurs d'entrée flexibles (par exemple, des vidéos brutes d'une heure), ce qui pose des défis importants pour les modèles traditionnels. Dans ce rapport, nous présentons Vidi, une famille de modèles multimodaux de grande taille (LMMs) pour une large gamme de scénarios de compréhension et de montage vidéo. La première version se concentre sur la récupération temporelle, c'est-à-dire l'identification des plages de temps dans les vidéos d'entrée correspondant à une requête textuelle donnée, ce qui joue un rôle crucial dans le montage intelligent. Le modèle est capable de traiter des vidéos d'une heure avec une forte capacité de compréhension temporelle, par exemple, récupérer des plages de temps pour certaines requêtes. Pour soutenir une évaluation complète dans des scénarios réels, nous présentons également le benchmark VUE-TR, qui introduit cinq avancées clés. 1) Durée de la vidéo : significativement plus longue que les ensembles de données de récupération temporelle existants, 2) Support audio : inclut des requêtes basées sur l'audio, 3) Format de requête : longueurs/formats de requête divers, 4) Qualité d'annotation : les plages de temps de référence sont annotées manuellement. 5) Métrique d'évaluation : une métrique IoU raffinée pour soutenir l'évaluation sur plusieurs plages de temps. Remarquablement, Vidi surpasse significativement les modèles propriétaires leaders, par exemple, GPT-4o et Gemini, dans la tâche de récupération temporelle, indiquant sa supériorité dans les scénarios de montage vidéo.
English
Humans naturally share information with those they are connected to, and
video has become one of the dominant mediums for communication and expression
on the Internet. To support the creation of high-quality large-scale video
content, a modern pipeline requires a comprehensive understanding of both the
raw input materials (e.g., the unedited footage captured by cameras) and the
editing components (e.g., visual effects). In video editing scenarios, models
must process multiple modalities (e.g., vision, audio, text) with strong
background knowledge and handle flexible input lengths (e.g., hour-long raw
videos), which poses significant challenges for traditional models. In this
report, we introduce Vidi, a family of Large Multimodal Models (LMMs) for a
wide range of video understand editing scenarios. The first release focuses on
temporal retrieval, i.e., identifying the time ranges within the input videos
corresponding to a given text query, which plays a critical role in intelligent
editing. The model is capable of processing hour-long videos with strong
temporal understanding capability, e.g., retrieve time ranges for certain
queries. To support a comprehensive evaluation in real-world scenarios, we also
present the VUE-TR benchmark, which introduces five key advancements. 1) Video
duration: significantly longer than existing temporal retrival datasets, 2)
Audio support: includes audio-based queries, 3) Query format: diverse query
lengths/formats, 4) Annotation quality: ground-truth time ranges are manually
annotated. 5) Evaluation metric: a refined IoU metric to support evaluation
over multiple time ranges. Remarkably, Vidi significantly outperforms leading
proprietary models, e.g., GPT-4o and Gemini, on the temporal retrieval task,
indicating its superiority in video editing scenarios.Summary
AI-Generated Summary