Vidi: Grandes Modelos Multimodais para Compreensão e Edição de Vídeos
Vidi: Large Multimodal Models for Video Understanding and Editing
April 22, 2025
Autores: Vidi Team, Celong Liu, Chia-Wen Kuo, Dawei Du, Fan Chen, Guang Chen, Jiamin Yuan, Lingxi Zhang, Lu Guo, Lusha Li, Longyin Wen, Qingyu Chen, Rachel Deng, Sijie Zhu, Stuart Siew, Tong Jin, Wei Lu, Wen Zhong, Xiaohui Shen, Xin Gu, Xing Mei, Xueqiong Qu
cs.AI
Resumo
Os seres humanos naturalmente compartilham informações com aqueles com quem estão conectados, e o vídeo se tornou um dos principais meios de comunicação e expressão na Internet. Para apoiar a criação de conteúdo em vídeo em larga escala e de alta qualidade, um pipeline moderno requer uma compreensão abrangente tanto dos materiais de entrada brutos (por exemplo, as filmagens não editadas capturadas por câmeras) quanto dos componentes de edição (por exemplo, efeitos visuais). Em cenários de edição de vídeo, os modelos devem processar múltiplas modalidades (por exemplo, visão, áudio, texto) com um forte conhecimento de fundo e lidar com comprimentos de entrada flexíveis (por exemplo, vídeos brutos de uma hora de duração), o que representa desafios significativos para os modelos tradicionais. Neste relatório, apresentamos Vidi, uma família de Modelos Multimodais de Grande Escala (LMMs) para uma ampla gama de cenários de compreensão e edição de vídeo. A primeira versão concentra-se na recuperação temporal, ou seja, identificar os intervalos de tempo dentro dos vídeos de entrada que correspondem a uma consulta de texto fornecida, o que desempenha um papel crítico na edição inteligente. O modelo é capaz de processar vídeos de uma hora de duração com uma forte capacidade de compreensão temporal, por exemplo, recuperar intervalos de tempo para determinadas consultas. Para apoiar uma avaliação abrangente em cenários do mundo real, também apresentamos o benchmark VUE-TR, que introduz cinco avanços principais. 1) Duração do vídeo: significativamente maior do que os conjuntos de dados de recuperação temporal existentes, 2) Suporte a áudio: inclui consultas baseadas em áudio, 3) Formato da consulta: diversos comprimentos/formatos de consulta, 4) Qualidade da anotação: os intervalos de tempo verdadeiros são anotados manualmente. 5) Métrica de avaliação: uma métrica IoU refinada para apoiar a avaliação em múltiplos intervalos de tempo. Notavelmente, o Vidi supera significativamente os principais modelos proprietários, como GPT-4o e Gemini, na tarefa de recuperação temporal, indicando sua superioridade em cenários de edição de vídeo.
English
Humans naturally share information with those they are connected to, and
video has become one of the dominant mediums for communication and expression
on the Internet. To support the creation of high-quality large-scale video
content, a modern pipeline requires a comprehensive understanding of both the
raw input materials (e.g., the unedited footage captured by cameras) and the
editing components (e.g., visual effects). In video editing scenarios, models
must process multiple modalities (e.g., vision, audio, text) with strong
background knowledge and handle flexible input lengths (e.g., hour-long raw
videos), which poses significant challenges for traditional models. In this
report, we introduce Vidi, a family of Large Multimodal Models (LMMs) for a
wide range of video understand editing scenarios. The first release focuses on
temporal retrieval, i.e., identifying the time ranges within the input videos
corresponding to a given text query, which plays a critical role in intelligent
editing. The model is capable of processing hour-long videos with strong
temporal understanding capability, e.g., retrieve time ranges for certain
queries. To support a comprehensive evaluation in real-world scenarios, we also
present the VUE-TR benchmark, which introduces five key advancements. 1) Video
duration: significantly longer than existing temporal retrival datasets, 2)
Audio support: includes audio-based queries, 3) Query format: diverse query
lengths/formats, 4) Annotation quality: ground-truth time ranges are manually
annotated. 5) Evaluation metric: a refined IoU metric to support evaluation
over multiple time ranges. Remarkably, Vidi significantly outperforms leading
proprietary models, e.g., GPT-4o and Gemini, on the temporal retrieval task,
indicating its superiority in video editing scenarios.Summary
AI-Generated Summary