ChatPaper.aiChatPaper

MORSE-500: Een programmeerbaar beheersbare videobenchmark om multimodale redenering stresstests te onderwerpen

MORSE-500: A Programmatically Controllable Video Benchmark to Stress-Test Multimodal Reasoning

June 5, 2025
Auteurs: Zikui Cai, Andrew Wang, Anirudh Satheesh, Ankit Nakhawa, Hyunwoo Jae, Keenan Powell, Minghui Liu, Neel Jay, Sungbin Oh, Xiyao Wang, Yongyuan Liang, Tom Goldstein, Furong Huang
cs.AI

Samenvatting

Ondanks snelle vooruitgang in visie-taalmodellen (VLMs), schieten huidige benchmarks voor multimodale redenering tekort in drie belangrijke dimensies. Ten eerste vertrouwen ze overweldigend op statische afbeeldingen, waardoor ze de temporele complexiteit van realistische omgevingen niet vastleggen. Ten tweede richten ze zich nauw op wiskundig probleemoplossen, waarbij het bredere spectrum van redeneervaardigheden — inclusief abstracte, fysieke, plannings-, ruimtelijke en temporele vaardigheden — die nodig zijn voor robuuste multimodale intelligentie, wordt verwaarloosd. Ten derde raken veel benchmarks snel verzadigd, wat beperkte ruimte biedt voor het diagnosticeren van faalmodi of het meten van voortdurende vooruitgang. We introduceren MORSE-500 (Multimodal Reasoning Stress-test Environment), een videobenchmark bestaande uit 500 volledig gescripte clips met ingebedde vragen die zes complementaire redeneercategorieën beslaan. Elk geval wordt programmatisch gegenereerd met behulp van deterministische Python-scripts (via Manim, Matplotlib, MoviePy), generatieve videomodellen en gecureerde echte beelden. Dit scriptgestuurde ontwerp maakt fijnmazige controle mogelijk over visuele complexiteit, afleidingsdichtheid en temporele dynamiek — waardoor de moeilijkheidsgraad systematisch kan worden geschaald naarmate modellen verbeteren. In tegenstelling tot statische benchmarks die verouderd raken zodra ze verzadigd zijn, is MORSE-500 gebouwd om te evolueren: de controleerbare generatiepijplijn ondersteunt het creëren van willekeurig uitdagende nieuwe gevallen, waardoor het ideaal is geschikt voor het stresstesten van modellen van de volgende generatie. Initiële experimenten met state-of-the-art systemen — waaronder verschillende Gemini 2.5 Pro en OpenAI o3, die de sterkste beschikbare modellen op dat moment vertegenwoordigen, naast sterke open-source modellen — onthullen aanzienlijke prestatiekloof in alle categorieën, met name grote tekortkomingen in abstracte en plannings taken. We geven de volledige dataset, generatiescripts en evaluatieharnas vrij om transparant, reproduceerbaar en toekomstgericht onderzoek naar multimodale redenering te ondersteunen.
English
Despite rapid advances in vision-language models (VLMs), current benchmarks for multimodal reasoning fall short in three key dimensions. First, they overwhelmingly rely on static images, failing to capture the temporal complexity of real-world environments. Second, they narrowly focus on mathematical problem-solving, neglecting the broader spectrum of reasoning skills -- including abstract, physical, planning, spatial, and temporal capabilities -- required for robust multimodal intelligence. Third, many benchmarks quickly saturate, offering limited headroom for diagnosing failure modes or measuring continued progress. We introduce MORSE-500 (Multimodal Reasoning Stress-test Environment), a video benchmark composed of 500 fully scripted clips with embedded questions spanning six complementary reasoning categories. Each instance is programmatically generated using deterministic Python scripts (via Manim, Matplotlib, MoviePy), generative video models, and curated real footage. This script-driven design allows fine-grained control over visual complexity, distractor density, and temporal dynamics -- enabling difficulty to be scaled systematically as models improve. Unlike static benchmarks that become obsolete once saturated, MORSE-500 is built to evolve: its controllable generation pipeline supports the creation of arbitrarily challenging new instances, making it ideally suited for stress-testing next-generation models. Initial experiments with state-of-the-art systems -- including various Gemini 2.5 Pro and OpenAI o3 which represent the strongest available at the time, alongside strong open-source models -- reveal substantial performance gaps across all categories, with particularly large deficits in abstract and planning tasks. We release the full dataset, generation scripts, and evaluation harness to support transparent, reproducible, and forward-looking multimodal reasoning research.
PDF322June 9, 2025