ChatPaper.aiChatPaper

Video SimpleQA: Rumando à Avaliação de Fatualidade em Grandes Modelos de Linguagem para Vídeos

Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models

March 24, 2025
Autores: Meng Cao, Pengfei Hu, Yingyao Wang, Jihao Gu, Haoran Tang, Haoze Zhao, Jiahua Dong, Wangbo Yu, Ge Zhang, Ian Reid, Xiaodan Liang
cs.AI

Resumo

Os avanços recentes em Grandes Modelos de Linguagem para Vídeo (LVLMs) destacaram seu potencial para compreensão multimodal, mas a avaliação de sua fundamentação factual em contextos de vídeo continua sendo um desafio crítico e não resolvido. Para abordar essa lacuna, introduzimos o Video SimpleQA, o primeiro benchmark abrangente projetado especificamente para a avaliação da factualidade de LVLMs. Nosso trabalho se diferencia dos benchmarks de vídeo existentes através das seguintes características principais: 1) Conhecimento necessário: exige a integração de conhecimento externo além da narrativa explícita; 2) Perguntas factuais: direcionadas a eventos ou relações objetivas e incontestáveis, evitando interpretações subjetivas; 3) Respostas definitivas e curtas: as respostas são elaboradas de forma inequívoca e correta em um formato curto, permitindo avaliação automatizada por meio de frameworks LLM-como-juiz com variação mínima de pontuação; 4) Verificação por fontes externas: todas as anotações passam por validação rigorosa com referências externas autorizadas para garantir confiabilidade; 5) Raciocínio temporal necessário: os tipos de perguntas anotadas abrangem tanto a compreensão estática de um único quadro quanto o raciocínio temporal dinâmico, avaliando explicitamente a factualidade dos LVLMs sob dependências de contexto longo. Avaliamos extensivamente 41 LVLMs de última geração e resumimos as principais descobertas da seguinte forma: 1) Os LVLMs atuais apresentam deficiências notáveis na aderência factual, especialmente para modelos de código aberto. O modelo com melhor desempenho, Gemini-1.5-Pro, alcança apenas um F-score de 54,4%; 2) Paradigmas de computação em tempo de teste mostram ganhos de desempenho insignificantes, revelando limitações fundamentais para melhorar a factualidade por meio de computação pós-hoc; 3) Geração Aumentada por Recuperação demonstra melhorias consistentes ao custo de sobrecarga adicional no tempo de inferência, apresentando uma troca crítica entre eficiência e desempenho.
English
Recent advancements in Large Video Language Models (LVLMs) have highlighted their potential for multi-modal understanding, yet evaluating their factual grounding in video contexts remains a critical unsolved challenge. To address this gap, we introduce Video SimpleQA, the first comprehensive benchmark tailored for factuality evaluation of LVLMs. Our work distinguishes from existing video benchmarks through the following key features: 1) Knowledge required: demanding integration of external knowledge beyond the explicit narrative; 2) Fact-seeking question: targeting objective, undisputed events or relationships, avoiding subjective interpretation; 3) Definitive & short-form answer: Answers are crafted as unambiguous and definitively correct in a short format, enabling automated evaluation through LLM-as-a-judge frameworks with minimal scoring variance; 4) External-source verified: All annotations undergo rigorous validation against authoritative external references to ensure the reliability; 5) Temporal reasoning required: The annotated question types encompass both static single-frame understanding and dynamic temporal reasoning, explicitly evaluating LVLMs factuality under the long-context dependencies. We extensively evaluate 41 state-of-the-art LVLMs and summarize key findings as follows: 1) Current LVLMs exhibit notable deficiencies in factual adherence, particularly for open-source models. The best-performing model Gemini-1.5-Pro achieves merely an F-score of 54.4%; 2) Test-time compute paradigms show insignificant performance gains, revealing fundamental constraints for enhancing factuality through post-hoc computation; 3) Retrieval-Augmented Generation demonstrates consistent improvements at the cost of additional inference time overhead, presenting a critical efficiency-performance trade-off.

Summary

AI-Generated Summary

PDF121March 25, 2025