Video SimpleQA: Verso la Valutazione della Fattualità nei Modelli Linguistici su Video di Grande Scala
Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models
March 24, 2025
Autori: Meng Cao, Pengfei Hu, Yingyao Wang, Jihao Gu, Haoran Tang, Haoze Zhao, Jiahua Dong, Wangbo Yu, Ge Zhang, Ian Reid, Xiaodan Liang
cs.AI
Abstract
I recenti progressi nei Modelli Linguistici per Video di Grande Scala (LVLM) hanno evidenziato il loro potenziale per la comprensione multimodale, ma la valutazione del loro ancoraggio fattuale nei contesti video rimane una sfida critica e irrisolta. Per colmare questa lacuna, introduciamo Video SimpleQA, il primo benchmark completo progettato specificamente per la valutazione della fattualità degli LVLM. Il nostro lavoro si distingue dai benchmark video esistenti attraverso le seguenti caratteristiche chiave: 1) Conoscenza richiesta: richiede l'integrazione di conoscenze esterne oltre la narrazione esplicita; 2) Domanda orientata ai fatti: si concentra su eventi o relazioni oggettivi e indiscutibili, evitando interpretazioni soggettive; 3) Risposta definitiva e breve: le risposte sono formulate in modo inequivocabile e corretto in un formato breve, consentendo una valutazione automatizzata attraverso framework LLM-as-a-judge con una varianza di punteggio minima; 4) Verifica da fonti esterne: tutte le annotazioni sono sottoposte a una rigorosa validazione rispetto a riferimenti esterni autorevoli per garantire l'affidabilità; 5) Ragionamento temporale richiesto: i tipi di domande annotati comprendono sia la comprensione statica di singoli fotogrammi sia il ragionamento temporale dinamico, valutando esplicitamente la fattualità degli LVLM in contesti con dipendenze a lungo termine. Abbiamo valutato estensivamente 41 LVLM all'avanguardia e riassunto i risultati chiave come segue: 1) Gli attuali LVLM mostrano carenze significative nell'aderenza ai fatti, in particolare per i modelli open-source. Il modello con le migliori prestazioni, Gemini-1.5-Pro, raggiunge appena un F-score del 54,4%; 2) I paradigmi di calcolo al momento del test mostrano guadagni di prestazioni insignificanti, rivelando limiti fondamentali nel migliorare la fattualità attraverso calcoli post-hoc; 3) La Generazione Aumentata con Recupero dimostra miglioramenti consistenti al costo di un sovraccarico aggiuntivo nel tempo di inferenza, presentando un compromesso critico tra efficienza e prestazioni.
English
Recent advancements in Large Video Language Models (LVLMs) have highlighted
their potential for multi-modal understanding, yet evaluating their factual
grounding in video contexts remains a critical unsolved challenge. To address
this gap, we introduce Video SimpleQA, the first comprehensive benchmark
tailored for factuality evaluation of LVLMs. Our work distinguishes from
existing video benchmarks through the following key features: 1) Knowledge
required: demanding integration of external knowledge beyond the explicit
narrative; 2) Fact-seeking question: targeting objective, undisputed events or
relationships, avoiding subjective interpretation; 3) Definitive & short-form
answer: Answers are crafted as unambiguous and definitively correct in a short
format, enabling automated evaluation through LLM-as-a-judge frameworks with
minimal scoring variance; 4) External-source verified: All annotations undergo
rigorous validation against authoritative external references to ensure the
reliability; 5) Temporal reasoning required: The annotated question types
encompass both static single-frame understanding and dynamic temporal
reasoning, explicitly evaluating LVLMs factuality under the long-context
dependencies. We extensively evaluate 41 state-of-the-art LVLMs and summarize
key findings as follows: 1) Current LVLMs exhibit notable deficiencies in
factual adherence, particularly for open-source models. The best-performing
model Gemini-1.5-Pro achieves merely an F-score of 54.4%; 2) Test-time compute
paradigms show insignificant performance gains, revealing fundamental
constraints for enhancing factuality through post-hoc computation; 3)
Retrieval-Augmented Generation demonstrates consistent improvements at the cost
of additional inference time overhead, presenting a critical
efficiency-performance trade-off.