ChatPaper.aiChatPaper

MORSE-500: Un benchmark video controllabile a livello programmatico per testare il ragionamento multimodale in condizioni di stress

MORSE-500: A Programmatically Controllable Video Benchmark to Stress-Test Multimodal Reasoning

June 5, 2025
Autori: Zikui Cai, Andrew Wang, Anirudh Satheesh, Ankit Nakhawa, Hyunwoo Jae, Keenan Powell, Minghui Liu, Neel Jay, Sungbin Oh, Xiyao Wang, Yongyuan Liang, Tom Goldstein, Furong Huang
cs.AI

Abstract

Nonostante i rapidi progressi nei modelli visione-linguaggio (VLMs), gli attuali benchmark per il ragionamento multimodale presentano tre principali limitazioni. In primo luogo, si basano prevalentemente su immagini statiche, non riuscendo a catturare la complessità temporale degli ambienti del mondo reale. In secondo luogo, si concentrano in modo ristretto sulla risoluzione di problemi matematici, trascurando l'ampio spettro di abilità di ragionamento — tra cui capacità astratte, fisiche, di pianificazione, spaziali e temporali — necessarie per un'intelligenza multimodale robusta. In terzo luogo, molti benchmark raggiungono rapidamente la saturazione, offrendo uno spazio limitato per diagnosticare modalità di fallimento o misurare progressi continui. Introduciamo MORSE-500 (Multimodal Reasoning Stress-test Environment), un benchmark video composto da 500 clip completamente scriptate con domande integrate che coprono sei categorie complementari di ragionamento. Ogni istanza è generata in modo programmatico utilizzando script Python deterministici (tramite Manim, Matplotlib, MoviePy), modelli generativi di video e filmati reali curati. Questo design basato su script consente un controllo fine sulla complessità visiva, la densità di distrattori e le dinamiche temporali — permettendo di scalare sistematicamente la difficoltà man mano che i modelli migliorano. A differenza dei benchmark statici che diventano obsoleti una volta saturati, MORSE-500 è progettato per evolversi: la sua pipeline di generazione controllabile supporta la creazione di nuove istanze arbitrariamente complesse, rendendolo ideale per stressare i modelli di prossima generazione. Esperimenti iniziali con sistemi all'avanguardia — inclusi vari Gemini 2.5 Pro e OpenAI o3, che rappresentano i più potenti disponibili al momento, insieme a forti modelli open-source — rivelano significativi gap di prestazioni in tutte le categorie, con deficit particolarmente ampi nei compiti astratti e di pianificazione. Rilasciamo l'intero dataset, gli script di generazione e il sistema di valutazione per supportare una ricerca sul ragionamento multimodale trasparente, riproducibile e orientata al futuro.
English
Despite rapid advances in vision-language models (VLMs), current benchmarks for multimodal reasoning fall short in three key dimensions. First, they overwhelmingly rely on static images, failing to capture the temporal complexity of real-world environments. Second, they narrowly focus on mathematical problem-solving, neglecting the broader spectrum of reasoning skills -- including abstract, physical, planning, spatial, and temporal capabilities -- required for robust multimodal intelligence. Third, many benchmarks quickly saturate, offering limited headroom for diagnosing failure modes or measuring continued progress. We introduce MORSE-500 (Multimodal Reasoning Stress-test Environment), a video benchmark composed of 500 fully scripted clips with embedded questions spanning six complementary reasoning categories. Each instance is programmatically generated using deterministic Python scripts (via Manim, Matplotlib, MoviePy), generative video models, and curated real footage. This script-driven design allows fine-grained control over visual complexity, distractor density, and temporal dynamics -- enabling difficulty to be scaled systematically as models improve. Unlike static benchmarks that become obsolete once saturated, MORSE-500 is built to evolve: its controllable generation pipeline supports the creation of arbitrarily challenging new instances, making it ideally suited for stress-testing next-generation models. Initial experiments with state-of-the-art systems -- including various Gemini 2.5 Pro and OpenAI o3 which represent the strongest available at the time, alongside strong open-source models -- reveal substantial performance gaps across all categories, with particularly large deficits in abstract and planning tasks. We release the full dataset, generation scripts, and evaluation harness to support transparent, reproducible, and forward-looking multimodal reasoning research.
PDF342June 9, 2025