ChatPaper.aiChatPaper

LongVideoBench: Um Benchmark para Compreensão de Vídeo-Linguagem com Contexto Longo Interleaved

LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding

July 22, 2024
Autores: Haoning Wu, Dongxu Li, Bei Chen, Junnan Li
cs.AI

Resumo

Grandes modelos multimodais (LMMs) estão processando entradas cada vez mais longas e ricas. Apesar do progresso, poucos benchmarks públicos estão disponíveis para medir tal desenvolvimento. Para mitigar essa lacuna, apresentamos o LongVideoBench, um benchmark de question-answering que apresenta entradas entrelaçadas de vídeo-linguagem de até uma hora de duração. Nosso benchmark inclui 3.763 vídeos coletados na web de comprimentos variados com legendas em diversos temas, projetados para avaliar abrangente e detalhadamente LMMs em compreensão multimodal de longo prazo. Para alcançar isso, interpretamos o desafio principal como recuperar e raciocinar com precisão sobre informações multimodais detalhadas de entradas longas. Dessa forma, formulamos uma nova tarefa de question-answering de vídeo denominada raciocínio de referência. Especificamente, como parte da pergunta, ela contém uma consulta de referência que faz referência a contextos de vídeo relacionados, chamados de contexto referenciado. O modelo então precisa raciocinar sobre detalhes relevantes do vídeo a partir do contexto referenciado. Seguindo o paradigma do raciocínio de referência, curamos 6.678 perguntas de múltipla escolha anotadas por humanos em 17 categorias refinadas, estabelecendo um dos benchmarks mais abrangentes para compreensão de vídeo de longa duração. Avaliações sugerem que o LongVideoBench apresenta desafios significativos mesmo para os modelos proprietários mais avançados (por exemplo, GPT-4o, Gemini-1.5-Pro, GPT-4-Turbo), enquanto seus equivalentes de código aberto mostram uma lacuna de desempenho ainda maior. Além disso, nossos resultados indicam que o desempenho do modelo no benchmark melhora apenas quando são capazes de processar mais frames, posicionando o LongVideoBench como um benchmark valioso para avaliar LMMs de longo contexto de próxima geração.
English
Large multimodal models (LMMs) are processing increasingly longer and richer inputs. Albeit the progress, few public benchmark is available to measure such development. To mitigate this gap, we introduce LongVideoBench, a question-answering benchmark that features video-language interleaved inputs up to an hour long. Our benchmark includes 3,763 varying-length web-collected videos with their subtitles across diverse themes, designed to comprehensively evaluate LMMs on long-term multimodal understanding. To achieve this, we interpret the primary challenge as to accurately retrieve and reason over detailed multimodal information from long inputs. As such, we formulate a novel video question-answering task termed referring reasoning. Specifically, as part of the question, it contains a referring query that references related video contexts, called referred context. The model is then required to reason over relevant video details from the referred context. Following the paradigm of referring reasoning, we curate 6,678 human-annotated multiple-choice questions in 17 fine-grained categories, establishing one of the most comprehensive benchmarks for long-form video understanding. Evaluations suggest that the LongVideoBench presents significant challenges even for the most advanced proprietary models (e.g. GPT-4o, Gemini-1.5-Pro, GPT-4-Turbo), while their open-source counterparts show an even larger performance gap. In addition, our results indicate that model performance on the benchmark improves only when they are capable of processing more frames, positioning LongVideoBench as a valuable benchmark for evaluating future-generation long-context LMMs.
PDF204November 28, 2024