Vidi: Крупные мультимодальные модели для понимания и редактирования видео
Vidi: Large Multimodal Models for Video Understanding and Editing
April 22, 2025
Авторы: Vidi Team, Celong Liu, Chia-Wen Kuo, Dawei Du, Fan Chen, Guang Chen, Jiamin Yuan, Lingxi Zhang, Lu Guo, Lusha Li, Longyin Wen, Qingyu Chen, Rachel Deng, Sijie Zhu, Stuart Siew, Tong Jin, Wei Lu, Wen Zhong, Xiaohui Shen, Xin Gu, Xing Mei, Xueqiong Qu
cs.AI
Аннотация
Люди естественным образом делятся информацией с теми, с кем они связаны, и видео стало одним из основных средств коммуникации и самовыражения в Интернете. Для поддержки создания высококачественного крупномасштабного видеоконтента современный процесс требует глубокого понимания как исходных материалов (например, необработанных видеозаписей, снятых камерами), так и компонентов редактирования (например, визуальных эффектов). В сценариях редактирования видео модели должны обрабатывать несколько модальностей (например, визуальные данные, аудио, текст) с глубокими фоновыми знаниями и справляться с гибкой длиной входных данных (например, часовыми исходными видео), что представляет значительные трудности для традиционных моделей. В этом отчете мы представляем Vidi — семейство крупных мультимодальных моделей (LMM) для широкого спектра сценариев понимания и редактирования видео. Первый выпуск сосредоточен на временном поиске, то есть на определении временных диапазонов во входных видео, соответствующих заданному текстовому запросу, что играет ключевую роль в интеллектуальном редактировании. Модель способна обрабатывать часовые видео с высокой способностью к временному пониманию, например, находить временные диапазоны для определенных запросов. Для поддержки всесторонней оценки в реальных сценариях мы также представляем бенчмарк VUE-TR, который вводит пять ключевых улучшений: 1) Длительность видео: значительно больше, чем в существующих наборах данных для временного поиска, 2) Поддержка аудио: включает запросы на основе аудио, 3) Формат запроса: разнообразные длины и форматы запросов, 4) Качество аннотаций: временные диапазоны, соответствующие истине, аннотированы вручную, 5) Метрика оценки: уточненная метрика IoU для оценки по нескольким временным диапазонам. Примечательно, что Vidi значительно превосходит ведущие проприетарные модели, такие как GPT-4o и Gemini, в задаче временного поиска, что указывает на его превосходство в сценариях редактирования видео.
English
Humans naturally share information with those they are connected to, and
video has become one of the dominant mediums for communication and expression
on the Internet. To support the creation of high-quality large-scale video
content, a modern pipeline requires a comprehensive understanding of both the
raw input materials (e.g., the unedited footage captured by cameras) and the
editing components (e.g., visual effects). In video editing scenarios, models
must process multiple modalities (e.g., vision, audio, text) with strong
background knowledge and handle flexible input lengths (e.g., hour-long raw
videos), which poses significant challenges for traditional models. In this
report, we introduce Vidi, a family of Large Multimodal Models (LMMs) for a
wide range of video understand editing scenarios. The first release focuses on
temporal retrieval, i.e., identifying the time ranges within the input videos
corresponding to a given text query, which plays a critical role in intelligent
editing. The model is capable of processing hour-long videos with strong
temporal understanding capability, e.g., retrieve time ranges for certain
queries. To support a comprehensive evaluation in real-world scenarios, we also
present the VUE-TR benchmark, which introduces five key advancements. 1) Video
duration: significantly longer than existing temporal retrival datasets, 2)
Audio support: includes audio-based queries, 3) Query format: diverse query
lengths/formats, 4) Annotation quality: ground-truth time ranges are manually
annotated. 5) Evaluation metric: a refined IoU metric to support evaluation
over multiple time ranges. Remarkably, Vidi significantly outperforms leading
proprietary models, e.g., GPT-4o and Gemini, on the temporal retrieval task,
indicating its superiority in video editing scenarios.Summary
AI-Generated Summary