Vidi: Modelli Multimodali di Grande Scala per la Comprensione e l'Editing di Video
Vidi: Large Multimodal Models for Video Understanding and Editing
April 22, 2025
Autori: Vidi Team, Celong Liu, Chia-Wen Kuo, Dawei Du, Fan Chen, Guang Chen, Jiamin Yuan, Lingxi Zhang, Lu Guo, Lusha Li, Longyin Wen, Qingyu Chen, Rachel Deng, Sijie Zhu, Stuart Siew, Tong Jin, Wei Lu, Wen Zhong, Xiaohui Shen, Xin Gu, Xing Mei, Xueqiong Qu
cs.AI
Abstract
Gli esseri umani condividono naturalmente informazioni con coloro con cui sono connessi, e il video è diventato uno dei mezzi dominanti per la comunicazione e l'espressione su Internet. Per supportare la creazione di contenuti video su larga scala di alta qualità, una pipeline moderna richiede una comprensione completa sia dei materiali di input grezzi (ad esempio, le riprese non modificate catturate dalle telecamere) che dei componenti di editing (ad esempio, gli effetti visivi). Negli scenari di editing video, i modelli devono elaborare più modalità (ad esempio, visione, audio, testo) con una solida conoscenza di base e gestire lunghezze di input flessibili (ad esempio, video grezzi della durata di un'ora), il che pone sfide significative per i modelli tradizionali. In questo rapporto, presentiamo Vidi, una famiglia di Large Multimodal Models (LMM) per una vasta gamma di scenari di comprensione e editing video. La prima versione si concentra sul recupero temporale, ovvero l'identificazione degli intervalli di tempo all'interno dei video di input corrispondenti a una determinata query testuale, che svolge un ruolo cruciale nell'editing intelligente. Il modello è in grado di elaborare video della durata di un'ora con una forte capacità di comprensione temporale, ad esempio, recuperare intervalli di tempo per determinate query. Per supportare una valutazione completa in scenari reali, presentiamo anche il benchmark VUE-TR, che introduce cinque progressi chiave. 1) Durata del video: significativamente più lunga rispetto ai dataset esistenti di recupero temporale, 2) Supporto audio: include query basate su audio, 3) Formato della query: lunghezze/formati di query diversificati, 4) Qualità delle annotazioni: gli intervalli di tempo di riferimento sono annotati manualmente. 5) Metrica di valutazione: una metrica IoU raffinata per supportare la valutazione su più intervalli di tempo. In modo notevole, Vidi supera significativamente i modelli proprietari leader, ad esempio GPT-4o e Gemini, nel compito di recupero temporale, indicando la sua superiorità negli scenari di editing video.
English
Humans naturally share information with those they are connected to, and
video has become one of the dominant mediums for communication and expression
on the Internet. To support the creation of high-quality large-scale video
content, a modern pipeline requires a comprehensive understanding of both the
raw input materials (e.g., the unedited footage captured by cameras) and the
editing components (e.g., visual effects). In video editing scenarios, models
must process multiple modalities (e.g., vision, audio, text) with strong
background knowledge and handle flexible input lengths (e.g., hour-long raw
videos), which poses significant challenges for traditional models. In this
report, we introduce Vidi, a family of Large Multimodal Models (LMMs) for a
wide range of video understand editing scenarios. The first release focuses on
temporal retrieval, i.e., identifying the time ranges within the input videos
corresponding to a given text query, which plays a critical role in intelligent
editing. The model is capable of processing hour-long videos with strong
temporal understanding capability, e.g., retrieve time ranges for certain
queries. To support a comprehensive evaluation in real-world scenarios, we also
present the VUE-TR benchmark, which introduces five key advancements. 1) Video
duration: significantly longer than existing temporal retrival datasets, 2)
Audio support: includes audio-based queries, 3) Query format: diverse query
lengths/formats, 4) Annotation quality: ground-truth time ranges are manually
annotated. 5) Evaluation metric: a refined IoU metric to support evaluation
over multiple time ranges. Remarkably, Vidi significantly outperforms leading
proprietary models, e.g., GPT-4o and Gemini, on the temporal retrieval task,
indicating its superiority in video editing scenarios.