Vidi: Große multimodale Modelle für Videoverständnis und -bearbeitung
Vidi: Large Multimodal Models for Video Understanding and Editing
April 22, 2025
Autoren: Vidi Team, Celong Liu, Chia-Wen Kuo, Dawei Du, Fan Chen, Guang Chen, Jiamin Yuan, Lingxi Zhang, Lu Guo, Lusha Li, Longyin Wen, Qingyu Chen, Rachel Deng, Sijie Zhu, Stuart Siew, Tong Jin, Wei Lu, Wen Zhong, Xiaohui Shen, Xin Gu, Xing Mei, Xueqiong Qu
cs.AI
Zusammenfassung
Menschen teilen natürlicherweise Informationen mit denen, mit denen sie verbunden sind, und Video ist zu einem der dominierenden Medien für Kommunikation und Ausdruck im Internet geworden. Um die Erstellung von hochwertigen, groß angelegten Videoinhalten zu unterstützen, erfordert eine moderne Pipeline ein umfassendes Verständnis sowohl der Rohmaterialien (z. B. das unbearbeitete Filmmaterial, das von Kameras aufgenommen wird) als auch der Bearbeitungskomponenten (z. B. visuelle Effekte). In Videoschnittszenarien müssen Modelle mehrere Modalitäten (z. B. Bild, Audio, Text) mit fundiertem Hintergrundwissen verarbeiten und flexible Eingabelängen (z. B. stundenlange Rohvideos) bewältigen, was erhebliche Herausforderungen für traditionelle Modelle darstellt. In diesem Bericht stellen wir Vidi vor, eine Familie von Large Multimodal Models (LMMs) für eine Vielzahl von Video-Verständnis- und Bearbeitungsszenarien. Die erste Version konzentriert sich auf die temporale Retrieval, d. h. die Identifizierung der Zeitbereiche innerhalb der Eingabevideos, die einer gegebenen Textabfrage entsprechen, was eine entscheidende Rolle beim intelligenten Schnitt spielt. Das Modell ist in der Lage, stundenlange Videos mit starker temporaler Verständnisfähigkeit zu verarbeiten, z. B. Zeitbereiche für bestimmte Abfragen zu ermitteln. Um eine umfassende Bewertung in realen Szenarien zu unterstützen, präsentieren wir auch den VUE-TR-Benchmark, der fünf wesentliche Fortschritte einführt. 1) Videodauer: deutlich länger als bestehende temporale Retrieval-Datensätze, 2) Audio-Unterstützung: beinhaltet audio-basierte Abfragen, 3) Abfrageformat: diverse Abfragelängen/-formate, 4) Annotationsqualität: die Ground-Truth-Zeitbereiche sind manuell annotiert. 5) Bewertungsmetrik: eine verfeinerte IoU-Metrik zur Unterstützung der Bewertung über mehrere Zeitbereiche. Bemerkenswerterweise übertrifft Vidi führende proprietäre Modelle, z. B. GPT-4o und Gemini, bei der temporalen Retrieval-Aufgabe deutlich, was seine Überlegenheit in Videoschnittszenarien unterstreicht.
English
Humans naturally share information with those they are connected to, and
video has become one of the dominant mediums for communication and expression
on the Internet. To support the creation of high-quality large-scale video
content, a modern pipeline requires a comprehensive understanding of both the
raw input materials (e.g., the unedited footage captured by cameras) and the
editing components (e.g., visual effects). In video editing scenarios, models
must process multiple modalities (e.g., vision, audio, text) with strong
background knowledge and handle flexible input lengths (e.g., hour-long raw
videos), which poses significant challenges for traditional models. In this
report, we introduce Vidi, a family of Large Multimodal Models (LMMs) for a
wide range of video understand editing scenarios. The first release focuses on
temporal retrieval, i.e., identifying the time ranges within the input videos
corresponding to a given text query, which plays a critical role in intelligent
editing. The model is capable of processing hour-long videos with strong
temporal understanding capability, e.g., retrieve time ranges for certain
queries. To support a comprehensive evaluation in real-world scenarios, we also
present the VUE-TR benchmark, which introduces five key advancements. 1) Video
duration: significantly longer than existing temporal retrival datasets, 2)
Audio support: includes audio-based queries, 3) Query format: diverse query
lengths/formats, 4) Annotation quality: ground-truth time ranges are manually
annotated. 5) Evaluation metric: a refined IoU metric to support evaluation
over multiple time ranges. Remarkably, Vidi significantly outperforms leading
proprietary models, e.g., GPT-4o and Gemini, on the temporal retrieval task,
indicating its superiority in video editing scenarios.Summary
AI-Generated Summary