ChatPaper.aiChatPaper

MORSE-500: Программно управляемый видеобенчмарк для стресс-тестирования мультимодального мышления

MORSE-500: A Programmatically Controllable Video Benchmark to Stress-Test Multimodal Reasoning

June 5, 2025
Авторы: Zikui Cai, Andrew Wang, Anirudh Satheesh, Ankit Nakhawa, Hyunwoo Jae, Keenan Powell, Minghui Liu, Neel Jay, Sungbin Oh, Xiyao Wang, Yongyuan Liang, Tom Goldstein, Furong Huang
cs.AI

Аннотация

Несмотря на быстрый прогресс в моделях, объединяющих зрение и язык (VLMs), современные тесты для мультимодального мышления имеют три ключевых недостатка. Во-первых, они в основном полагаются на статические изображения, не учитывая временную сложность реальных условий. Во-вторых, они узко сосредоточены на решении математических задач, игнорируя более широкий спектр навыков мышления — включая абстрактные, физические, планирование, пространственные и временные способности — необходимых для устойчивого мультимодального интеллекта. В-третьих, многие тесты быстро достигают насыщения, оставляя мало возможностей для диагностики ошибок или измерения дальнейшего прогресса. Мы представляем MORSE-500 (Multimodal Reasoning Stress-test Environment), видеотест, состоящий из 500 полностью сценаризированных клипов с встроенными вопросами, охватывающими шесть взаимодополняющих категорий мышления. Каждый пример программно генерируется с использованием детерминированных скриптов на Python (через Manim, Matplotlib, MoviePy), генеративных моделей видео и отобранных реальных записей. Такой подход, основанный на скриптах, позволяет точно контролировать визуальную сложность, плотность отвлекающих элементов и временную динамику — что дает возможность систематически увеличивать сложность по мере улучшения моделей. В отличие от статических тестов, которые устаревают после насыщения, MORSE-500 создан для эволюции: его управляемый процесс генерации поддерживает создание произвольно сложных новых примеров, делая его идеальным инструментом для стресс-тестирования моделей следующего поколения. Первоначальные эксперименты с передовыми системами — включая различные версии Gemini 2.5 Pro и OpenAI o3, представляющие на момент исследования наиболее мощные доступные модели, а также сильные модели с открытым исходным кодом — выявили значительные пробелы в производительности во всех категориях, особенно в абстрактных задачах и задачах на планирование. Мы публикуем полный набор данных, скрипты генерации и инструменты оценки для поддержки прозрачных, воспроизводимых и перспективных исследований в области мультимодального мышления.
English
Despite rapid advances in vision-language models (VLMs), current benchmarks for multimodal reasoning fall short in three key dimensions. First, they overwhelmingly rely on static images, failing to capture the temporal complexity of real-world environments. Second, they narrowly focus on mathematical problem-solving, neglecting the broader spectrum of reasoning skills -- including abstract, physical, planning, spatial, and temporal capabilities -- required for robust multimodal intelligence. Third, many benchmarks quickly saturate, offering limited headroom for diagnosing failure modes or measuring continued progress. We introduce MORSE-500 (Multimodal Reasoning Stress-test Environment), a video benchmark composed of 500 fully scripted clips with embedded questions spanning six complementary reasoning categories. Each instance is programmatically generated using deterministic Python scripts (via Manim, Matplotlib, MoviePy), generative video models, and curated real footage. This script-driven design allows fine-grained control over visual complexity, distractor density, and temporal dynamics -- enabling difficulty to be scaled systematically as models improve. Unlike static benchmarks that become obsolete once saturated, MORSE-500 is built to evolve: its controllable generation pipeline supports the creation of arbitrarily challenging new instances, making it ideally suited for stress-testing next-generation models. Initial experiments with state-of-the-art systems -- including various Gemini 2.5 Pro and OpenAI o3 which represent the strongest available at the time, alongside strong open-source models -- reveal substantial performance gaps across all categories, with particularly large deficits in abstract and planning tasks. We release the full dataset, generation scripts, and evaluation harness to support transparent, reproducible, and forward-looking multimodal reasoning research.
PDF322June 9, 2025