ChatPaper.aiChatPaper

MORSE-500: Um Benchmark de Vídeo Controlável Programaticamente para Testes de Estresse em Raciocínio Multimodal

MORSE-500: A Programmatically Controllable Video Benchmark to Stress-Test Multimodal Reasoning

June 5, 2025
Autores: Zikui Cai, Andrew Wang, Anirudh Satheesh, Ankit Nakhawa, Hyunwoo Jae, Keenan Powell, Minghui Liu, Neel Jay, Sungbin Oh, Xiyao Wang, Yongyuan Liang, Tom Goldstein, Furong Huang
cs.AI

Resumo

Apesar dos rápidos avanços nos modelos de visão e linguagem (VLMs), os benchmarks atuais para raciocínio multimodal apresentam deficiências em três dimensões principais. Primeiro, eles dependem predominantemente de imagens estáticas, falhando em capturar a complexidade temporal dos ambientes do mundo real. Segundo, eles se concentram de forma restrita na resolução de problemas matemáticos, negligenciando o espectro mais amplo de habilidades de raciocínio — incluindo capacidades abstratas, físicas, de planejamento, espaciais e temporais — necessárias para uma inteligência multimodal robusta. Terceiro, muitos benchmarks rapidamente atingem saturação, oferecendo espaço limitado para diagnosticar modos de falha ou medir progressos contínuos. Introduzimos o MORSE-500 (Multimodal Reasoning Stress-test Environment), um benchmark de vídeo composto por 500 clipes totalmente roteirizados com perguntas incorporadas que abrangem seis categorias complementares de raciocínio. Cada instância é gerada programaticamente usando scripts Python determinísticos (via Manim, Matplotlib, MoviePy), modelos generativos de vídeo e filmagens reais curadas. Esse design baseado em scripts permite controle refinado sobre a complexidade visual, densidade de distrações e dinâmicas temporais — possibilitando que a dificuldade seja escalada sistematicamente à medida que os modelos melhoram. Diferente de benchmarks estáticos que se tornam obsoletos após a saturação, o MORSE-500 foi construído para evoluir: seu pipeline de geração controlável suporta a criação de novas instâncias arbitrariamente desafiadoras, tornando-o ideal para testar modelos de próxima geração sob pressão. Experimentos iniciais com sistemas de última geração — incluindo várias versões do Gemini 2.5 Pro e OpenAI o3, que representam os mais avançados disponíveis no momento, além de modelos open-source robustos — revelam lacunas substanciais de desempenho em todas as categorias, com déficits particularmente grandes em tarefas abstratas e de planejamento. Disponibilizamos o conjunto de dados completo, scripts de geração e ferramentas de avaliação para apoiar pesquisas transparentes, reproduzíveis e prospectivas em raciocínio multimodal.
English
Despite rapid advances in vision-language models (VLMs), current benchmarks for multimodal reasoning fall short in three key dimensions. First, they overwhelmingly rely on static images, failing to capture the temporal complexity of real-world environments. Second, they narrowly focus on mathematical problem-solving, neglecting the broader spectrum of reasoning skills -- including abstract, physical, planning, spatial, and temporal capabilities -- required for robust multimodal intelligence. Third, many benchmarks quickly saturate, offering limited headroom for diagnosing failure modes or measuring continued progress. We introduce MORSE-500 (Multimodal Reasoning Stress-test Environment), a video benchmark composed of 500 fully scripted clips with embedded questions spanning six complementary reasoning categories. Each instance is programmatically generated using deterministic Python scripts (via Manim, Matplotlib, MoviePy), generative video models, and curated real footage. This script-driven design allows fine-grained control over visual complexity, distractor density, and temporal dynamics -- enabling difficulty to be scaled systematically as models improve. Unlike static benchmarks that become obsolete once saturated, MORSE-500 is built to evolve: its controllable generation pipeline supports the creation of arbitrarily challenging new instances, making it ideally suited for stress-testing next-generation models. Initial experiments with state-of-the-art systems -- including various Gemini 2.5 Pro and OpenAI o3 which represent the strongest available at the time, alongside strong open-source models -- reveal substantial performance gaps across all categories, with particularly large deficits in abstract and planning tasks. We release the full dataset, generation scripts, and evaluation harness to support transparent, reproducible, and forward-looking multimodal reasoning research.
PDF322June 9, 2025