Vidi: Modelos Multimodales de Gran Escala para la Comprensión y Edición de Videos
Vidi: Large Multimodal Models for Video Understanding and Editing
April 22, 2025
Autores: Vidi Team, Celong Liu, Chia-Wen Kuo, Dawei Du, Fan Chen, Guang Chen, Jiamin Yuan, Lingxi Zhang, Lu Guo, Lusha Li, Longyin Wen, Qingyu Chen, Rachel Deng, Sijie Zhu, Stuart Siew, Tong Jin, Wei Lu, Wen Zhong, Xiaohui Shen, Xin Gu, Xing Mei, Xueqiong Qu
cs.AI
Resumen
Los seres humanos comparten información de forma natural con aquellos con quienes están conectados, y el video se ha convertido en uno de los medios dominantes para la comunicación y expresión en Internet. Para apoyar la creación de contenido de video a gran escala y de alta calidad, una pipeline moderna requiere una comprensión integral tanto de los materiales de entrada en bruto (por ejemplo, las imágenes sin editar capturadas por cámaras) como de los componentes de edición (por ejemplo, efectos visuales). En escenarios de edición de video, los modelos deben procesar múltiples modalidades (por ejemplo, visión, audio, texto) con un sólido conocimiento de fondo y manejar longitudes de entrada flexibles (por ejemplo, videos en bruto de una hora de duración), lo que plantea desafíos significativos para los modelos tradicionales. En este informe, presentamos Vidi, una familia de Modelos Multimodales de Gran Escala (LMMs) para una amplia gama de escenarios de comprensión y edición de video. La primera versión se centra en la recuperación temporal, es decir, identificar los rangos de tiempo dentro de los videos de entrada que corresponden a una consulta de texto dada, lo que juega un papel crítico en la edición inteligente. El modelo es capaz de procesar videos de una hora de duración con una fuerte capacidad de comprensión temporal, por ejemplo, recuperar rangos de tiempo para ciertas consultas. Para apoyar una evaluación integral en escenarios del mundo real, también presentamos el benchmark VUE-TR, que introduce cinco avances clave. 1) Duración del video: significativamente más larga que los conjuntos de datos de recuperación temporal existentes, 2) Soporte de audio: incluye consultas basadas en audio, 3) Formato de consulta: longitudes/formatos de consulta diversos, 4) Calidad de anotación: los rangos de tiempo de referencia están anotados manualmente. 5) Métrica de evaluación: una métrica IoU refinada para apoyar la evaluación en múltiples rangos de tiempo. Notablemente, Vidi supera significativamente a los modelos propietarios líderes, por ejemplo, GPT-4o y Gemini, en la tarea de recuperación temporal, lo que indica su superioridad en escenarios de edición de video.
English
Humans naturally share information with those they are connected to, and
video has become one of the dominant mediums for communication and expression
on the Internet. To support the creation of high-quality large-scale video
content, a modern pipeline requires a comprehensive understanding of both the
raw input materials (e.g., the unedited footage captured by cameras) and the
editing components (e.g., visual effects). In video editing scenarios, models
must process multiple modalities (e.g., vision, audio, text) with strong
background knowledge and handle flexible input lengths (e.g., hour-long raw
videos), which poses significant challenges for traditional models. In this
report, we introduce Vidi, a family of Large Multimodal Models (LMMs) for a
wide range of video understand editing scenarios. The first release focuses on
temporal retrieval, i.e., identifying the time ranges within the input videos
corresponding to a given text query, which plays a critical role in intelligent
editing. The model is capable of processing hour-long videos with strong
temporal understanding capability, e.g., retrieve time ranges for certain
queries. To support a comprehensive evaluation in real-world scenarios, we also
present the VUE-TR benchmark, which introduces five key advancements. 1) Video
duration: significantly longer than existing temporal retrival datasets, 2)
Audio support: includes audio-based queries, 3) Query format: diverse query
lengths/formats, 4) Annotation quality: ground-truth time ranges are manually
annotated. 5) Evaluation metric: a refined IoU metric to support evaluation
over multiple time ranges. Remarkably, Vidi significantly outperforms leading
proprietary models, e.g., GPT-4o and Gemini, on the temporal retrieval task,
indicating its superiority in video editing scenarios.Summary
AI-Generated Summary