ChatPaper.aiChatPaper

Video SimpleQA: К оценке фактической точности в крупных языковых моделях для видео

Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models

March 24, 2025
Авторы: Meng Cao, Pengfei Hu, Yingyao Wang, Jihao Gu, Haoran Tang, Haoze Zhao, Jiahua Dong, Wangbo Yu, Ge Zhang, Ian Reid, Xiaodan Liang
cs.AI

Аннотация

Последние достижения в области крупных языковых моделей для видео (LVLMs) подчеркивают их потенциал для мультимодального понимания, однако оценка их фактической достоверности в контексте видео остается важной нерешенной задачей. Чтобы восполнить этот пробел, мы представляем Video SimpleQA — первый всеобъемлющий бенчмарк, специально разработанный для оценки фактической достоверности LVLMs. Наша работа отличается от существующих видео-бенчмарков следующими ключевыми особенностями: 1) Требуемые знания: необходимость интеграции внешних знаний, выходящих за рамки явного повествования; 2) Фактографические вопросы: ориентация на объективные, неоспоримые события или отношения, избегая субъективной интерпретации; 3) Определенные и краткие ответы: ответы формулируются как однозначные и безусловно правильные в кратком формате, что позволяет автоматизировать оценку с использованием LLM-as-a-judge с минимальной вариативностью; 4) Проверка внешними источниками: все аннотации проходят строгую проверку по авторитетным внешним источникам для обеспечения надежности; 5) Требуется временное рассуждение: аннотированные типы вопросов охватывают как статическое понимание одного кадра, так и динамическое временное рассуждение, явно оценивая фактическую достоверность LVLMs в условиях длинных контекстных зависимостей. Мы провели масштабную оценку 41 современной LVLM и выделили следующие ключевые выводы: 1) Современные LVLMs демонстрируют значительные недостатки в соблюдении фактической достоверности, особенно для моделей с открытым исходным кодом. Лучшая модель Gemini-1.5-Pro достигает F-меры всего 54,4%; 2) Парадигмы вычислений во время тестирования показывают незначительный прирост производительности, что указывает на фундаментальные ограничения для улучшения фактической достоверности через постфактумные вычисления; 3) Генерация с использованием поиска демонстрирует стабильные улучшения за счет дополнительных временных затрат на вывод, представляя критический компромисс между эффективностью и производительностью.
English
Recent advancements in Large Video Language Models (LVLMs) have highlighted their potential for multi-modal understanding, yet evaluating their factual grounding in video contexts remains a critical unsolved challenge. To address this gap, we introduce Video SimpleQA, the first comprehensive benchmark tailored for factuality evaluation of LVLMs. Our work distinguishes from existing video benchmarks through the following key features: 1) Knowledge required: demanding integration of external knowledge beyond the explicit narrative; 2) Fact-seeking question: targeting objective, undisputed events or relationships, avoiding subjective interpretation; 3) Definitive & short-form answer: Answers are crafted as unambiguous and definitively correct in a short format, enabling automated evaluation through LLM-as-a-judge frameworks with minimal scoring variance; 4) External-source verified: All annotations undergo rigorous validation against authoritative external references to ensure the reliability; 5) Temporal reasoning required: The annotated question types encompass both static single-frame understanding and dynamic temporal reasoning, explicitly evaluating LVLMs factuality under the long-context dependencies. We extensively evaluate 41 state-of-the-art LVLMs and summarize key findings as follows: 1) Current LVLMs exhibit notable deficiencies in factual adherence, particularly for open-source models. The best-performing model Gemini-1.5-Pro achieves merely an F-score of 54.4%; 2) Test-time compute paradigms show insignificant performance gains, revealing fundamental constraints for enhancing factuality through post-hoc computation; 3) Retrieval-Augmented Generation demonstrates consistent improvements at the cost of additional inference time overhead, presenting a critical efficiency-performance trade-off.

Summary

AI-Generated Summary

PDF121March 25, 2025