Video SimpleQA: К оценке фактической точности в крупных языковых моделях для видео
Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models
March 24, 2025
Авторы: Meng Cao, Pengfei Hu, Yingyao Wang, Jihao Gu, Haoran Tang, Haoze Zhao, Jiahua Dong, Wangbo Yu, Ge Zhang, Ian Reid, Xiaodan Liang
cs.AI
Аннотация
Последние достижения в области крупных языковых моделей для видео (LVLMs) подчеркивают их потенциал для мультимодального понимания, однако оценка их фактической достоверности в контексте видео остается важной нерешенной задачей. Чтобы восполнить этот пробел, мы представляем Video SimpleQA — первый всеобъемлющий бенчмарк, специально разработанный для оценки фактической достоверности LVLMs. Наша работа отличается от существующих видео-бенчмарков следующими ключевыми особенностями: 1) Требуемые знания: необходимость интеграции внешних знаний, выходящих за рамки явного повествования; 2) Фактографические вопросы: ориентация на объективные, неоспоримые события или отношения, избегая субъективной интерпретации; 3) Определенные и краткие ответы: ответы формулируются как однозначные и безусловно правильные в кратком формате, что позволяет автоматизировать оценку с использованием LLM-as-a-judge с минимальной вариативностью; 4) Проверка внешними источниками: все аннотации проходят строгую проверку по авторитетным внешним источникам для обеспечения надежности; 5) Требуется временное рассуждение: аннотированные типы вопросов охватывают как статическое понимание одного кадра, так и динамическое временное рассуждение, явно оценивая фактическую достоверность LVLMs в условиях длинных контекстных зависимостей. Мы провели масштабную оценку 41 современной LVLM и выделили следующие ключевые выводы: 1) Современные LVLMs демонстрируют значительные недостатки в соблюдении фактической достоверности, особенно для моделей с открытым исходным кодом. Лучшая модель Gemini-1.5-Pro достигает F-меры всего 54,4%; 2) Парадигмы вычислений во время тестирования показывают незначительный прирост производительности, что указывает на фундаментальные ограничения для улучшения фактической достоверности через постфактумные вычисления; 3) Генерация с использованием поиска демонстрирует стабильные улучшения за счет дополнительных временных затрат на вывод, представляя критический компромисс между эффективностью и производительностью.
English
Recent advancements in Large Video Language Models (LVLMs) have highlighted
their potential for multi-modal understanding, yet evaluating their factual
grounding in video contexts remains a critical unsolved challenge. To address
this gap, we introduce Video SimpleQA, the first comprehensive benchmark
tailored for factuality evaluation of LVLMs. Our work distinguishes from
existing video benchmarks through the following key features: 1) Knowledge
required: demanding integration of external knowledge beyond the explicit
narrative; 2) Fact-seeking question: targeting objective, undisputed events or
relationships, avoiding subjective interpretation; 3) Definitive & short-form
answer: Answers are crafted as unambiguous and definitively correct in a short
format, enabling automated evaluation through LLM-as-a-judge frameworks with
minimal scoring variance; 4) External-source verified: All annotations undergo
rigorous validation against authoritative external references to ensure the
reliability; 5) Temporal reasoning required: The annotated question types
encompass both static single-frame understanding and dynamic temporal
reasoning, explicitly evaluating LVLMs factuality under the long-context
dependencies. We extensively evaluate 41 state-of-the-art LVLMs and summarize
key findings as follows: 1) Current LVLMs exhibit notable deficiencies in
factual adherence, particularly for open-source models. The best-performing
model Gemini-1.5-Pro achieves merely an F-score of 54.4%; 2) Test-time compute
paradigms show insignificant performance gains, revealing fundamental
constraints for enhancing factuality through post-hoc computation; 3)
Retrieval-Augmented Generation demonstrates consistent improvements at the cost
of additional inference time overhead, presenting a critical
efficiency-performance trade-off.Summary
AI-Generated Summary