ChatPaper.aiChatPaper

MORSE-500 : Un benchmark vidéo contrôlable par programmation pour tester en profondeur le raisonnement multimodal

MORSE-500: A Programmatically Controllable Video Benchmark to Stress-Test Multimodal Reasoning

June 5, 2025
Auteurs: Zikui Cai, Andrew Wang, Anirudh Satheesh, Ankit Nakhawa, Hyunwoo Jae, Keenan Powell, Minghui Liu, Neel Jay, Sungbin Oh, Xiyao Wang, Yongyuan Liang, Tom Goldstein, Furong Huang
cs.AI

Résumé

Malgré les avancées rapides des modèles vision-langage (VLMs), les benchmarks actuels pour le raisonnement multimodal présentent trois lacunes majeures. Premièrement, ils reposent massivement sur des images statiques, ne parvenant pas à capturer la complexité temporelle des environnements réels. Deuxièmement, ils se concentrent étroitement sur la résolution de problèmes mathématiques, négligeant le spectre plus large des compétences de raisonnement — incluant les capacités abstraites, physiques, de planification, spatiales et temporelles — nécessaires pour une intelligence multimodale robuste. Troisièmement, de nombreux benchmarks atteignent rapidement un plafond, offrant un espace limité pour diagnostiquer les modes d'échec ou mesurer les progrès continus. Nous présentons MORSE-500 (Multimodal Reasoning Stress-test Environment), un benchmark vidéo composé de 500 clips entièrement scénarisés avec des questions intégrées couvrant six catégories de raisonnement complémentaires. Chaque instance est générée de manière programmatique à l'aide de scripts Python déterministes (via Manim, Matplotlib, MoviePy), de modèles génératifs vidéo et de séquences réelles soigneusement sélectionnées. Cette conception pilotée par des scripts permet un contrôle précis de la complexité visuelle, de la densité des distracteurs et de la dynamique temporelle — permettant d'ajuster systématiquement la difficulté à mesure que les modèles s'améliorent. Contrairement aux benchmarks statiques qui deviennent obsolètes une fois saturés, MORSE-500 est conçu pour évoluer : son pipeline de génération contrôlable permet la création de nouvelles instances arbitrairement complexes, le rendant idéal pour tester les modèles de nouvelle génération. Les expériences initiales avec les systèmes de pointe — incluant diverses versions de Gemini 2.5 Pro et OpenAI o3, représentant les plus performants disponibles à l'époque, ainsi que des modèles open-source solides — révèlent des écarts de performance substantiels dans toutes les catégories, avec des déficits particulièrement marqués dans les tâches abstraites et de planification. Nous publions l'ensemble du dataset, les scripts de génération et le cadre d'évaluation pour soutenir une recherche transparente, reproductible et tournée vers l'avenir en raisonnement multimodal.
English
Despite rapid advances in vision-language models (VLMs), current benchmarks for multimodal reasoning fall short in three key dimensions. First, they overwhelmingly rely on static images, failing to capture the temporal complexity of real-world environments. Second, they narrowly focus on mathematical problem-solving, neglecting the broader spectrum of reasoning skills -- including abstract, physical, planning, spatial, and temporal capabilities -- required for robust multimodal intelligence. Third, many benchmarks quickly saturate, offering limited headroom for diagnosing failure modes or measuring continued progress. We introduce MORSE-500 (Multimodal Reasoning Stress-test Environment), a video benchmark composed of 500 fully scripted clips with embedded questions spanning six complementary reasoning categories. Each instance is programmatically generated using deterministic Python scripts (via Manim, Matplotlib, MoviePy), generative video models, and curated real footage. This script-driven design allows fine-grained control over visual complexity, distractor density, and temporal dynamics -- enabling difficulty to be scaled systematically as models improve. Unlike static benchmarks that become obsolete once saturated, MORSE-500 is built to evolve: its controllable generation pipeline supports the creation of arbitrarily challenging new instances, making it ideally suited for stress-testing next-generation models. Initial experiments with state-of-the-art systems -- including various Gemini 2.5 Pro and OpenAI o3 which represent the strongest available at the time, alongside strong open-source models -- reveal substantial performance gaps across all categories, with particularly large deficits in abstract and planning tasks. We release the full dataset, generation scripts, and evaluation harness to support transparent, reproducible, and forward-looking multimodal reasoning research.
PDF322June 9, 2025