Vidi: Grandes Modelos Multimodais para Compreensão e Edição de Vídeos

Resumo

Os seres humanos naturalmente compartilham informações com aqueles com quem estão conectados, e o vídeo se tornou um dos principais meios de comunicação e expressão na Internet. Para apoiar a criação de conteúdo em vídeo em larga escala e de alta qualidade, um pipeline moderno requer uma compreensão abrangente tanto dos materiais de entrada brutos (por exemplo, as filmagens não editadas capturadas por câmeras) quanto dos componentes de edição (por exemplo, efeitos visuais). Em cenários de edição de vídeo, os modelos devem processar múltiplas modalidades (por exemplo, visão, áudio, texto) com um forte conhecimento de fundo e lidar com comprimentos de entrada flexíveis (por exemplo, vídeos brutos de uma hora de duração), o que representa desafios significativos para os modelos tradicionais. Neste relatório, apresentamos Vidi, uma família de Modelos Multimodais de Grande Escala (LMMs) para uma ampla gama de cenários de compreensão e edição de vídeo. A primeira versão concentra-se na recuperação temporal, ou seja, identificar os intervalos de tempo dentro dos vídeos de entrada que correspondem a uma consulta de texto fornecida, o que desempenha um papel crítico na edição inteligente. O modelo é capaz de processar vídeos de uma hora de duração com uma forte capacidade de compreensão temporal, por exemplo, recuperar intervalos de tempo para determinadas consultas. Para apoiar uma avaliação abrangente em cenários do mundo real, também apresentamos o benchmark VUE-TR, que introduz cinco avanços principais. 1) Duração do vídeo: significativamente maior do que os conjuntos de dados de recuperação temporal existentes, 2) Suporte a áudio: inclui consultas baseadas em áudio, 3) Formato da consulta: diversos comprimentos/formatos de consulta, 4) Qualidade da anotação: os intervalos de tempo verdadeiros são anotados manualmente. 5) Métrica de avaliação: uma métrica IoU refinada para apoiar a avaliação em múltiplos intervalos de tempo. Notavelmente, o Vidi supera significativamente os principais modelos proprietários, como GPT-4o e Gemini, na tarefa de recuperação temporal, indicando sua superioridade em cenários de edição de vídeo.

English

Humans naturally share information with those they are connected to, and video has become one of the dominant mediums for communication and expression on the Internet. To support the creation of high-quality large-scale video content, a modern pipeline requires a comprehensive understanding of both the raw input materials (e.g., the unedited footage captured by cameras) and the editing components (e.g., visual effects). In video editing scenarios, models must process multiple modalities (e.g., vision, audio, text) with strong background knowledge and handle flexible input lengths (e.g., hour-long raw videos), which poses significant challenges for traditional models. In this report, we introduce Vidi, a family of Large Multimodal Models (LMMs) for a wide range of video understand editing scenarios. The first release focuses on temporal retrieval, i.e., identifying the time ranges within the input videos corresponding to a given text query, which plays a critical role in intelligent editing. The model is capable of processing hour-long videos with strong temporal understanding capability, e.g., retrieve time ranges for certain queries. To support a comprehensive evaluation in real-world scenarios, we also present the VUE-TR benchmark, which introduces five key advancements. 1) Video duration: significantly longer than existing temporal retrival datasets, 2) Audio support: includes audio-based queries, 3) Query format: diverse query lengths/formats, 4) Annotation quality: ground-truth time ranges are manually annotated. 5) Evaluation metric: a refined IoU metric to support evaluation over multiple time ranges. Remarkably, Vidi significantly outperforms leading proprietary models, e.g., GPT-4o and Gemini, on the temporal retrieval task, indicating its superiority in video editing scenarios.

Vidi: Grandes Modelos Multimodais para Compreensão e Edição de Vídeos

Vidi: Large Multimodal Models for Video Understanding and Editing

Resumo

Summary

Support

Support