Video SimpleQA: Rumando à Avaliação de Fatualidade em Grandes Modelos de Linguagem para Vídeos
Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models
March 24, 2025
Autores: Meng Cao, Pengfei Hu, Yingyao Wang, Jihao Gu, Haoran Tang, Haoze Zhao, Jiahua Dong, Wangbo Yu, Ge Zhang, Ian Reid, Xiaodan Liang
cs.AI
Resumo
Os avanços recentes em Grandes Modelos de Linguagem para Vídeo (LVLMs) destacaram seu potencial para compreensão multimodal, mas a avaliação de sua fundamentação factual em contextos de vídeo continua sendo um desafio crítico e não resolvido. Para abordar essa lacuna, introduzimos o Video SimpleQA, o primeiro benchmark abrangente projetado especificamente para a avaliação da factualidade de LVLMs. Nosso trabalho se diferencia dos benchmarks de vídeo existentes através das seguintes características principais: 1) Conhecimento necessário: exige a integração de conhecimento externo além da narrativa explícita; 2) Perguntas factuais: direcionadas a eventos ou relações objetivas e incontestáveis, evitando interpretações subjetivas; 3) Respostas definitivas e curtas: as respostas são elaboradas de forma inequívoca e correta em um formato curto, permitindo avaliação automatizada por meio de frameworks LLM-como-juiz com variação mínima de pontuação; 4) Verificação por fontes externas: todas as anotações passam por validação rigorosa com referências externas autorizadas para garantir confiabilidade; 5) Raciocínio temporal necessário: os tipos de perguntas anotadas abrangem tanto a compreensão estática de um único quadro quanto o raciocínio temporal dinâmico, avaliando explicitamente a factualidade dos LVLMs sob dependências de contexto longo. Avaliamos extensivamente 41 LVLMs de última geração e resumimos as principais descobertas da seguinte forma: 1) Os LVLMs atuais apresentam deficiências notáveis na aderência factual, especialmente para modelos de código aberto. O modelo com melhor desempenho, Gemini-1.5-Pro, alcança apenas um F-score de 54,4%; 2) Paradigmas de computação em tempo de teste mostram ganhos de desempenho insignificantes, revelando limitações fundamentais para melhorar a factualidade por meio de computação pós-hoc; 3) Geração Aumentada por Recuperação demonstra melhorias consistentes ao custo de sobrecarga adicional no tempo de inferência, apresentando uma troca crítica entre eficiência e desempenho.
English
Recent advancements in Large Video Language Models (LVLMs) have highlighted
their potential for multi-modal understanding, yet evaluating their factual
grounding in video contexts remains a critical unsolved challenge. To address
this gap, we introduce Video SimpleQA, the first comprehensive benchmark
tailored for factuality evaluation of LVLMs. Our work distinguishes from
existing video benchmarks through the following key features: 1) Knowledge
required: demanding integration of external knowledge beyond the explicit
narrative; 2) Fact-seeking question: targeting objective, undisputed events or
relationships, avoiding subjective interpretation; 3) Definitive & short-form
answer: Answers are crafted as unambiguous and definitively correct in a short
format, enabling automated evaluation through LLM-as-a-judge frameworks with
minimal scoring variance; 4) External-source verified: All annotations undergo
rigorous validation against authoritative external references to ensure the
reliability; 5) Temporal reasoning required: The annotated question types
encompass both static single-frame understanding and dynamic temporal
reasoning, explicitly evaluating LVLMs factuality under the long-context
dependencies. We extensively evaluate 41 state-of-the-art LVLMs and summarize
key findings as follows: 1) Current LVLMs exhibit notable deficiencies in
factual adherence, particularly for open-source models. The best-performing
model Gemini-1.5-Pro achieves merely an F-score of 54.4%; 2) Test-time compute
paradigms show insignificant performance gains, revealing fundamental
constraints for enhancing factuality through post-hoc computation; 3)
Retrieval-Augmented Generation demonstrates consistent improvements at the cost
of additional inference time overhead, presenting a critical
efficiency-performance trade-off.Summary
AI-Generated Summary