MM-CondChain: Ein programmatisch verifizierter Benchmark für visuell fundiertes tiefes kompositionelles Schließen

Zusammenfassung

Multimodale Large Language Models (MLLMs) werden zunehmend zur Ausführung visueller Arbeitsabläufe eingesetzt, wie z.B. zur Navigation in GUIs, bei denen der nächste Schritt von verifizierten visuellen kompositionellen Bedingungen abhängt (z.B. "wenn ein Berechtigungsdialog erscheint und die Farbe der Oberfläche grün ist, klicke auf Erlauben") und der Prozess verzweigen oder vorzeitig enden kann. Dennoch bleibt diese Fähigkeit unterbewertet: bestehende Benchmarks konzentrieren sich auf flache Kompositionen oder unabhängige Einschränkungen anstatt auf tief verschachtelte kompositionelle Bedingungsgefüge. In diesem Artikel stellen wir MM-CondChain vor, einen Benchmark für visuell fundiertes, tiefgehendes kompositionelles Schließen. Jede Benchmark-Instanz ist als eine mehrschichtige Reasoning-Kette organisiert, wobei jede Ebene eine nicht-triviale kompositionelle Bedingung enthält, die in visuellen Evidenzen fundiert und aus mehreren Objekten, Attributen oder Relationen aufgebaut ist. Um korrekt zu antworten, muss ein MLLM das Bild detailliert wahrnehmen, auf jeder Stufe über mehrere visuelle Elemente schließen und dem resultierenden Ausführungspfad bis zum Endergebnis folgen. Um solche arbeitsablaufartigen Daten skalierbar zu konstruieren, schlagen wir einen agentenbasierten Synthese-Pipeline vor: ein Planner orchestriert die schrittweise Generierung kompositioneller Bedingungen, während eine Verifiable Programmatic Intermediate Representation (VPIR) sicherstellt, dass die Bedingung jeder Ebene mechanisch überprüfbar ist. Ein Composer setzt dann diese verifizierten Ebenen zu vollständigen Anweisungen zusammen. Mit dieser Pipeline konstruieren wir Benchmarks in drei visuellen Domänen: natürliche Bilder, Daten-diagramme und GUI-Trajektorien. Experimente mit einer Reihe von MLLMs zeigen, dass selbst das leistungsstärkste Modell nur 53,33 Path F1 erreicht, mit starken Einbrüchen bei schweren Negativbeispielen sowie mit zunehmender Tiefe oder Prädikatskomplexität, was bestätigt, dass tiefgehendes kompositionelles Schließen eine grundlegende Herausforderung bleibt.

English

Multimodal Large Language Models (MLLMs) are increasingly used to carry out visual workflows such as navigating GUIs, where the next step depends on verified visual compositional conditions (e.g., "if a permission dialog appears and the color of the interface is green, click Allow") and the process may branch or terminate early. Yet this capability remains under-evaluated: existing benchmarks focus on shallow-compositions or independent-constraints rather than deeply chained compositional conditionals. In this paper, we introduce MM-CondChain, a benchmark for visually grounded deep compositional reasoning. Each benchmark instance is organized as a multi-layer reasoning chain, where every layer contains a non-trivial compositional condition grounded in visual evidence and built from multiple objects, attributes, or relations. To answer correctly, an MLLM must perceive the image in detail, reason over multiple visual elements at each step, and follow the resulting execution path to the final outcome. To scalably construct such workflow-style data, we propose an agentic synthesis pipeline: a Planner orchestrates layer-by-layer generation of compositional conditions, while a Verifiable Programmatic Intermediate Representation (VPIR) ensures each layer's condition is mechanically verifiable. A Composer then assembles these verified layers into complete instructions. Using this pipeline, we construct benchmarks across three visual domains: natural images, data charts, and GUI trajectories. Experiments on a range of MLLMs show that even the strongest model attains only 53.33 Path F1, with sharp drops on hard negatives and as depth or predicate complexity grows, confirming that deep compositional reasoning remains a fundamental challenge.

MM-CondChain: Ein programmatisch verifizierter Benchmark für visuell fundiertes tiefes kompositionelles Schließen

MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

Zusammenfassung

Support