ChatPaper.aiChatPaper

Vript: Um Vídeo Vale Mais que Mil Palavras

Vript: A Video Is Worth Thousands of Words

June 10, 2024
Autores: Dongjie Yang, Suyuan Huang, Chengqiang Lu, Xiaodong Han, Haoxin Zhang, Yan Gao, Yao Hu, Hai Zhao
cs.AI

Resumo

Avanços na aprendizagem multimodal, particularmente na compreensão e geração de vídeos, exigem conjuntos de dados vídeo-texto de alta qualidade para melhorar o desempenho dos modelos. O Vript aborda essa questão com um corpus meticulosamente anotado de 12 mil vídeos de alta resolução, oferecendo legendas detalhadas, densas e semelhantes a roteiros para mais de 420 mil clipes. Cada clipe possui uma legenda de aproximadamente 145 palavras, o que é mais de 10 vezes maior do que a maioria dos conjuntos de dados vídeo-texto. Diferente das legendas que apenas documentam conteúdo estático em conjuntos de dados anteriores, aprimoramos a legendagem de vídeos para a criação de roteiros, documentando não apenas o conteúdo, mas também as operações de câmera, que incluem os tipos de enquadramento (plano médio, close-up, etc.) e movimentos de câmera (panorâmica, inclinação, etc.). Ao utilizar o Vript, exploramos três paradigmas de treinamento que alinham mais texto com a modalidade de vídeo, em vez de pares clipe-legenda. Isso resulta no Vriptor, um modelo de legendagem de vídeos de alto desempenho entre os modelos de código aberto, comparável ao GPT-4V em termos de desempenho. O Vriptor também é um modelo poderoso capaz de gerar legendas densas e detalhadas de forma ponta a ponta para vídeos longos. Além disso, introduzimos o Vript-Hard, um benchmark composto por três tarefas de compreensão de vídeo que são mais desafiadoras do que os benchmarks existentes: o Vript-HAL é o primeiro benchmark que avalia alucinações de ações e objetos em LLMs de vídeo, o Vript-RR combina raciocínio com recuperação para resolver ambiguidades de perguntas em QAs de vídeos longos, e o Vript-ERO é uma nova tarefa para avaliar a compreensão temporal de eventos em vídeos longos, em vez de ações em vídeos curtos, como em trabalhos anteriores. Todo o código, modelos e conjuntos de dados estão disponíveis em https://github.com/mutonix/Vript.
English
Advancements in multimodal learning, particularly in video understanding and generation, require high-quality video-text datasets for improved model performance. Vript addresses this issue with a meticulously annotated corpus of 12K high-resolution videos, offering detailed, dense, and script-like captions for over 420K clips. Each clip has a caption of ~145 words, which is over 10x longer than most video-text datasets. Unlike captions only documenting static content in previous datasets, we enhance video captioning to video scripting by documenting not just the content, but also the camera operations, which include the shot types (medium shot, close-up, etc) and camera movements (panning, tilting, etc). By utilizing the Vript, we explore three training paradigms of aligning more text with the video modality rather than clip-caption pairs. This results in Vriptor, a top-performing video captioning model among open-source models, comparable to GPT-4V in performance. Vriptor is also a powerful model capable of end-to-end generation of dense and detailed captions for long videos. Moreover, we introduce Vript-Hard, a benchmark consisting of three video understanding tasks that are more challenging than existing benchmarks: Vript-HAL is the first benchmark evaluating action and object hallucinations in video LLMs, Vript-RR combines reasoning with retrieval resolving question ambiguity in long-video QAs, and Vript-ERO is a new task to evaluate the temporal understanding of events in long videos rather than actions in short videos in previous works. All code, models, and datasets are available in https://github.com/mutonix/Vript.
PDF290December 8, 2024