MORSE-500: Um Benchmark de Vídeo Controlável Programaticamente para Testes de Estresse em Raciocínio Multimodal
MORSE-500: A Programmatically Controllable Video Benchmark to Stress-Test Multimodal Reasoning
June 5, 2025
Autores: Zikui Cai, Andrew Wang, Anirudh Satheesh, Ankit Nakhawa, Hyunwoo Jae, Keenan Powell, Minghui Liu, Neel Jay, Sungbin Oh, Xiyao Wang, Yongyuan Liang, Tom Goldstein, Furong Huang
cs.AI
Resumo
Apesar dos rápidos avanços nos modelos de visão e linguagem (VLMs), os benchmarks atuais para raciocínio multimodal apresentam deficiências em três dimensões principais. Primeiro, eles dependem predominantemente de imagens estáticas, falhando em capturar a complexidade temporal dos ambientes do mundo real. Segundo, eles se concentram de forma restrita na resolução de problemas matemáticos, negligenciando o espectro mais amplo de habilidades de raciocínio — incluindo capacidades abstratas, físicas, de planejamento, espaciais e temporais — necessárias para uma inteligência multimodal robusta. Terceiro, muitos benchmarks rapidamente atingem saturação, oferecendo espaço limitado para diagnosticar modos de falha ou medir progressos contínuos. Introduzimos o MORSE-500 (Multimodal Reasoning Stress-test Environment), um benchmark de vídeo composto por 500 clipes totalmente roteirizados com perguntas incorporadas que abrangem seis categorias complementares de raciocínio. Cada instância é gerada programaticamente usando scripts Python determinísticos (via Manim, Matplotlib, MoviePy), modelos generativos de vídeo e filmagens reais curadas. Esse design baseado em scripts permite controle refinado sobre a complexidade visual, densidade de distrações e dinâmicas temporais — possibilitando que a dificuldade seja escalada sistematicamente à medida que os modelos melhoram. Diferente de benchmarks estáticos que se tornam obsoletos após a saturação, o MORSE-500 foi construído para evoluir: seu pipeline de geração controlável suporta a criação de novas instâncias arbitrariamente desafiadoras, tornando-o ideal para testar modelos de próxima geração sob pressão. Experimentos iniciais com sistemas de última geração — incluindo várias versões do Gemini 2.5 Pro e OpenAI o3, que representam os mais avançados disponíveis no momento, além de modelos open-source robustos — revelam lacunas substanciais de desempenho em todas as categorias, com déficits particularmente grandes em tarefas abstratas e de planejamento. Disponibilizamos o conjunto de dados completo, scripts de geração e ferramentas de avaliação para apoiar pesquisas transparentes, reproduzíveis e prospectivas em raciocínio multimodal.
English
Despite rapid advances in vision-language models (VLMs), current benchmarks
for multimodal reasoning fall short in three key dimensions. First, they
overwhelmingly rely on static images, failing to capture the temporal
complexity of real-world environments. Second, they narrowly focus on
mathematical problem-solving, neglecting the broader spectrum of reasoning
skills -- including abstract, physical, planning, spatial, and temporal
capabilities -- required for robust multimodal intelligence. Third, many
benchmarks quickly saturate, offering limited headroom for diagnosing failure
modes or measuring continued progress. We introduce MORSE-500 (Multimodal
Reasoning Stress-test Environment), a video benchmark composed of 500 fully
scripted clips with embedded questions spanning six complementary reasoning
categories. Each instance is programmatically generated using deterministic
Python scripts (via Manim, Matplotlib, MoviePy), generative video models, and
curated real footage. This script-driven design allows fine-grained control
over visual complexity, distractor density, and temporal dynamics -- enabling
difficulty to be scaled systematically as models improve. Unlike static
benchmarks that become obsolete once saturated, MORSE-500 is built to evolve:
its controllable generation pipeline supports the creation of arbitrarily
challenging new instances, making it ideally suited for stress-testing
next-generation models. Initial experiments with state-of-the-art systems --
including various Gemini 2.5 Pro and OpenAI o3 which represent the strongest
available at the time, alongside strong open-source models -- reveal
substantial performance gaps across all categories, with particularly large
deficits in abstract and planning tasks. We release the full dataset,
generation scripts, and evaluation harness to support transparent,
reproducible, and forward-looking multimodal reasoning research.