MORSE-500: Un punto de referencia de video controlable programáticamente para evaluar el razonamiento multimodal bajo estrés

Resumen

A pesar de los rápidos avances en los modelos de visión y lenguaje (VLMs), los benchmarks actuales para el razonamiento multimodal presentan deficiencias en tres dimensiones clave. En primer lugar, dependen en gran medida de imágenes estáticas, lo que no logra capturar la complejidad temporal de los entornos del mundo real. En segundo lugar, se centran de manera limitada en la resolución de problemas matemáticos, descuidando el espectro más amplio de habilidades de razonamiento —incluyendo capacidades abstractas, físicas, de planificación, espaciales y temporales— necesarias para una inteligencia multimodal robusta. En tercer lugar, muchos benchmarks se saturan rápidamente, ofreciendo un margen limitado para diagnosticar modos de fallo o medir el progreso continuo. Presentamos MORSE-500 (Multimodal Reasoning Stress-test Environment), un benchmark de video compuesto por 500 clips completamente guionizados con preguntas integradas que abarcan seis categorías complementarias de razonamiento. Cada instancia se genera de manera programática utilizando scripts deterministas en Python (a través de Manim, Matplotlib, MoviePy), modelos generativos de video y material real seleccionado. Este diseño basado en scripts permite un control detallado sobre la complejidad visual, la densidad de distractores y la dinámica temporal, lo que posibilita escalar sistemáticamente la dificultad a medida que los modelos mejoran. A diferencia de los benchmarks estáticos que se vuelven obsoletos una vez saturados, MORSE-500 está diseñado para evolucionar: su pipeline de generación controlable permite la creación de nuevas instancias arbitrariamente desafiantes, lo que lo hace ideal para someter a prueba a los modelos de próxima generación. Experimentos iniciales con sistemas de última generación —incluyendo varias versiones de Gemini 2.5 Pro y OpenAI o3, que representan los más avanzados disponibles en ese momento, junto con modelos de código abierto robustos— revelan brechas de rendimiento significativas en todas las categorías, con déficits particularmente grandes en tareas abstractas y de planificación. Publicamos el conjunto de datos completo, los scripts de generación y el sistema de evaluación para apoyar una investigación en razonamiento multimodal transparente, reproducible y orientada al futuro.

English

Despite rapid advances in vision-language models (VLMs), current benchmarks for multimodal reasoning fall short in three key dimensions. First, they overwhelmingly rely on static images, failing to capture the temporal complexity of real-world environments. Second, they narrowly focus on mathematical problem-solving, neglecting the broader spectrum of reasoning skills -- including abstract, physical, planning, spatial, and temporal capabilities -- required for robust multimodal intelligence. Third, many benchmarks quickly saturate, offering limited headroom for diagnosing failure modes or measuring continued progress. We introduce MORSE-500 (Multimodal Reasoning Stress-test Environment), a video benchmark composed of 500 fully scripted clips with embedded questions spanning six complementary reasoning categories. Each instance is programmatically generated using deterministic Python scripts (via Manim, Matplotlib, MoviePy), generative video models, and curated real footage. This script-driven design allows fine-grained control over visual complexity, distractor density, and temporal dynamics -- enabling difficulty to be scaled systematically as models improve. Unlike static benchmarks that become obsolete once saturated, MORSE-500 is built to evolve: its controllable generation pipeline supports the creation of arbitrarily challenging new instances, making it ideally suited for stress-testing next-generation models. Initial experiments with state-of-the-art systems -- including various Gemini 2.5 Pro and OpenAI o3 which represent the strongest available at the time, alongside strong open-source models -- reveal substantial performance gaps across all categories, with particularly large deficits in abstract and planning tasks. We release the full dataset, generation scripts, and evaluation harness to support transparent, reproducible, and forward-looking multimodal reasoning research.

MORSE-500: Un punto de referencia de video controlable programáticamente para evaluar el razonamiento multimodal bajo estrés

MORSE-500: A Programmatically Controllable Video Benchmark to Stress-Test Multimodal Reasoning

Resumen

Support