ChatPaper.aiChatPaper

SciVideoBench: Оценка способности крупных мультимодальных моделей к анализу научных видеоматериалов

SciVideoBench: Benchmarking Scientific Video Reasoning in Large Multimodal Models

October 9, 2025
Авторы: Andong Deng, Taojiannan Yang, Shoubin Yu, Lincoln Spencer, Mohit Bansal, Chen Chen, Serena Yeung-Levy, Xiaohan Wang
cs.AI

Аннотация

Крупные мультимодальные модели (LMM) достигли значительного прогресса в различных областях; однако сложное видеорассуждение в научной сфере остается важным и трудным рубежом. Современные видеотесты в основном ориентированы на общие сценарии, где основное внимание уделяется восприятию/распознаванию, а задачи рассуждения относительно просты, что приводит к насыщению и, как следствие, не позволяет эффективно оценивать продвинутые мультимодальные когнитивные навыки. Чтобы устранить этот критический пробел, мы представляем SciVideoBench — строгий тест, специально разработанный для оценки продвинутого видеорассуждения в научных контекстах. SciVideoBench состоит из 1000 тщательно составленных вопросов с множественным выбором, основанных на передовых научных экспериментальных видео, охватывающих более 25 специализированных академических дисциплин и проверенных полуавтоматической системой. Каждый вопрос требует глубоких знаний в конкретной области, точного пространственно-временного восприятия и сложного логического рассуждения, эффективно проверяя высшие когнитивные способности моделей. Наша оценка выявляет значительные пробелы в производительности современных проприетарных и открытых LMM, включая Gemini 2.5 Pro и Qwen2.5-VL, что указывает на существенный потенциал для улучшения в области видеорассуждения. Детальный анализ ключевых факторов, таких как сложность рассуждений и визуальная привязка, предоставляет ценные инсайты и четкое направление для будущего развития LMM, способствуя эволюции по-настоящему способных мультимодальных ИИ-сотрудников в науке. Мы надеемся, что SciVideoBench будет полезен сообществу и поможет расширить границы передовых технологий ИИ для более широкого применения в науке.
English
Large Multimodal Models (LMMs) have achieved remarkable progress across various capabilities; however, complex video reasoning in the scientific domain remains a significant and challenging frontier. Current video benchmarks predominantly target general scenarios where perception/recognition is heavily relied on, while with relatively simple reasoning tasks, leading to saturation and thus failing to effectively evaluate advanced multimodal cognitive skills. To address this critical gap, we introduce SciVideoBench, a rigorous benchmark specifically designed to assess advanced video reasoning in scientific contexts. SciVideoBench consists of 1,000 carefully crafted multiple-choice questions derived from cutting-edge scientific experimental videos spanning over 25 specialized academic subjects and verified by a semi-automatic system. Each question demands sophisticated domain-specific knowledge, precise spatiotemporal perception, and intricate logical reasoning, effectively challenging models' higher-order cognitive abilities. Our evaluation highlights significant performance deficits in state-of-the-art proprietary and open-source LMMs, including Gemini 2.5 Pro and Qwen2.5-VL, indicating substantial room for advancement in video reasoning capabilities. Detailed analyses of critical factors such as reasoning complexity and visual grounding provide valuable insights and clear direction for future developments in LMMs, driving the evolution of truly capable multimodal AI co-scientists. We hope SciVideoBench could fit the interests of the community and help to push the boundary of cutting-edge AI for border science.
PDF73October 10, 2025