ChatPaper.aiChatPaper

MORSE-500: Ein programmatisch steuerbarer Video-Benchmark zur Belastungsprüfung multimodalen Denkens

MORSE-500: A Programmatically Controllable Video Benchmark to Stress-Test Multimodal Reasoning

June 5, 2025
Autoren: Zikui Cai, Andrew Wang, Anirudh Satheesh, Ankit Nakhawa, Hyunwoo Jae, Keenan Powell, Minghui Liu, Neel Jay, Sungbin Oh, Xiyao Wang, Yongyuan Liang, Tom Goldstein, Furong Huang
cs.AI

Zusammenfassung

Trotz rasanter Fortschritte bei Vision-Language-Modellen (VLMs) weisen aktuelle Benchmarks für multimodales Denken in drei Schlüsseldimensionen Defizite auf. Erstens stützen sie sich überwiegend auf statische Bilder und erfassen nicht die zeitliche Komplexität realer Umgebungen. Zweitens konzentrieren sie sich eng auf mathematische Problemlösungen und vernachlässigen das breitere Spektrum an Denkfähigkeiten – einschließlich abstrakter, physikalischer, planerischer, räumlicher und zeitlicher Fähigkeiten –, die für robuste multimodale Intelligenz erforderlich sind. Drittens erreichen viele Benchmarks schnell eine Sättigung, was nur begrenzten Spielraum für die Diagnose von Fehlermodi oder die Messung kontinuierlicher Fortschritte bietet. Wir stellen MORSE-500 (Multimodal Reasoning Stress-test Environment) vor, einen Video-Benchmark, der aus 500 vollständig skriptbasierten Clips mit eingebetteten Fragen aus sechs komplementären Denkkategorien besteht. Jede Instanz wird programmatisch mithilfe deterministischer Python-Skripte (über Manim, Matplotlib, MoviePy), generativer Videomodelle und kuratierter realer Aufnahmen erzeugt. Dieser skriptgesteuerte Entwurf ermöglicht eine fein abgestimmte Kontrolle über visuelle Komplexität, Ablenkungsdichte und zeitliche Dynamik – was es erlaubt, den Schwierigkeitsgrad systematisch zu skalieren, während sich Modelle verbessern. Im Gegensatz zu statischen Benchmarks, die nach der Sättigung obsolet werden, ist MORSE-500 darauf ausgelegt, sich weiterzuentwickeln: Seine kontrollierbare Generierungspipeline unterstützt die Erstellung beliebig anspruchsvoller neuer Instanzen, was ihn ideal für das Stresstesten der nächsten Modellgeneration macht. Erste Experimente mit state-of-the-art Systemen – darunter verschiedene Gemini 2.5 Pro und OpenAI o3, die zum Zeitpunkt der Studie die leistungsstärksten verfügbaren Modelle repräsentieren, sowie starke Open-Source-Modelle – zeigen erhebliche Leistungslücken in allen Kategorien, mit besonders großen Defiziten bei abstrakten und planerischen Aufgaben. Wir veröffentlichen den vollständigen Datensatz, die Generierungsskripte und das Evaluationsframework, um transparente, reproduzierbare und zukunftsorientierte Forschung im Bereich des multimodalen Denkens zu unterstützen.
English
Despite rapid advances in vision-language models (VLMs), current benchmarks for multimodal reasoning fall short in three key dimensions. First, they overwhelmingly rely on static images, failing to capture the temporal complexity of real-world environments. Second, they narrowly focus on mathematical problem-solving, neglecting the broader spectrum of reasoning skills -- including abstract, physical, planning, spatial, and temporal capabilities -- required for robust multimodal intelligence. Third, many benchmarks quickly saturate, offering limited headroom for diagnosing failure modes or measuring continued progress. We introduce MORSE-500 (Multimodal Reasoning Stress-test Environment), a video benchmark composed of 500 fully scripted clips with embedded questions spanning six complementary reasoning categories. Each instance is programmatically generated using deterministic Python scripts (via Manim, Matplotlib, MoviePy), generative video models, and curated real footage. This script-driven design allows fine-grained control over visual complexity, distractor density, and temporal dynamics -- enabling difficulty to be scaled systematically as models improve. Unlike static benchmarks that become obsolete once saturated, MORSE-500 is built to evolve: its controllable generation pipeline supports the creation of arbitrarily challenging new instances, making it ideally suited for stress-testing next-generation models. Initial experiments with state-of-the-art systems -- including various Gemini 2.5 Pro and OpenAI o3 which represent the strongest available at the time, alongside strong open-source models -- reveal substantial performance gaps across all categories, with particularly large deficits in abstract and planning tasks. We release the full dataset, generation scripts, and evaluation harness to support transparent, reproducible, and forward-looking multimodal reasoning research.
PDF322June 9, 2025