ChatPaper.aiChatPaper

VidText: К всесторонней оценке понимания текста в видео

VidText: Towards Comprehensive Evaluation for Video Text Understanding

May 28, 2025
Авторы: Zhoufaran Yang, Yan Shu, Zhifei Yang, Yan Zhang, Yu Li, Keyang Lu, Gangyan Zeng, Shaohui Liu, Yu Zhou, Nicu Sebe
cs.AI

Аннотация

Визуальные тексты, встроенные в видео, содержат богатую семантическую информацию, которая имеет ключевое значение как для целостного понимания видео, так и для детального анализа локальных действий человека. Однако существующие тестовые наборы для понимания видео в значительной степени игнорируют текстовую информацию, в то время как специализированные тесты для OCR ограничены статичными изображениями, что ограничивает их способность учитывать взаимодействие между текстом и динамическим визуальным контекстом. Чтобы устранить этот пробел, мы предлагаем VidText — новый тестовый набор, разработанный для всесторонней и глубокой оценки понимания текста в видео. VidText обладает следующими ключевыми особенностями: 1) Он охватывает широкий спектр реальных сценариев и поддерживает многоязычный контент, включая разнообразные ситуации, в которых текст естественным образом появляется в видео. 2) Он представляет иерархическую систему оценки с задачами на уровне видео, клипов и отдельных объектов, что позволяет оценивать как глобальное обобщение, так и локальное извлечение информации. 3) Тестовый набор также включает набор парных задач на восприятие и рассуждение, начиная от восприятия визуального текста и заканчивая кросс-модальными рассуждениями между текстовой и визуальной информацией. Эксперименты с 18 современными крупными мультимодальными моделями (LMM) показывают, что текущие модели испытывают трудности в большинстве задач, оставляя значительный простор для улучшений. Дополнительный анализ подчеркивает влияние как внутренних факторов модели, таких как разрешение входных данных и возможности OCR, так и внешних факторов, включая использование вспомогательной информации и стратегий рассуждения по цепочке мыслей (Chain-of-Thought). Мы надеемся, что VidText заполнит существующий пробел в тестовых наборах для понимания видео и станет основой для будущих исследований мультимодального рассуждения с текстом в динамических видео.
English
Visual texts embedded in videos carry rich semantic information, which is crucial for both holistic video understanding and fine-grained reasoning about local human actions. However, existing video understanding benchmarks largely overlook textual information, while OCR-specific benchmarks are constrained to static images, limiting their ability to capture the interaction between text and dynamic visual contexts. To address this gap, we propose VidText, a new benchmark designed for comprehensive and in-depth evaluation of video text understanding. VidText offers the following key features: 1) It covers a wide range of real-world scenarios and supports multilingual content, encompassing diverse settings where video text naturally appears. 2) It introduces a hierarchical evaluation framework with video-level, clip-level, and instance-level tasks, enabling assessment of both global summarization and local retrieval capabilities. 3) The benchmark also introduces a set of paired perception reasoning tasks, ranging from visual text perception to cross-modal reasoning between textual and visual information. Extensive experiments on 18 state-of-the-art Large Multimodal Models (LMMs) reveal that current models struggle across most tasks, with significant room for improvement. Further analysis highlights the impact of both model-intrinsic factors, such as input resolution and OCR capability, and external factors, including the use of auxiliary information and Chain-of-Thought reasoning strategies. We hope VidText will fill the current gap in video understanding benchmarks and serve as a foundation for future research on multimodal reasoning with video text in dynamic environments.

Summary

AI-Generated Summary

PDF202May 30, 2025