MM-CondChain: Een programmatisch geverifieerde benchmark voor visueel ondersteund diep compositioneel redeneren

Samenvatting

Multimodale Large Language Models (MLLM's) worden steeds vaker ingezet voor het uitvoeren van visuele workflows, zoals het navigeren door GUI's, waarbij de volgende stap afhangt van geverifieerde visuele compositionele voorwaarden (bijvoorbeeld: "als een dialoogvenster voor toestemming verschijnt en de kleur van de interface groen is, klik dan op Toestaan") en het proces vroegtijdig kan vertakken of beëindigen. Toch blijft deze capaciteit onderbelicht in evaluaties: bestaande benchmarks richten zich op ondiepe composities of onafhankelijke beperkingen in plaats van diep geketende compositionele conditionele statements. In dit artikel introduceren we MM-CondChain, een benchmark voor visueel onderbouwde diepe compositionele redenering. Elke benchmarkinstantie is georganiseerd als een meerlagige redeneerketen, waarbij elke laag een niet-triviale compositionele voorwaarde bevat die is verankerd in visueel bewijs en is opgebouwd uit meerdere objecten, attributen of relaties. Om correct te antwoorden, moet een MLLM het beeld gedetailleerd waarnemen, redeneren over meerdere visuele elementen bij elke stap, en de resulterende uitvoeringspad volgen naar het uiteindelijke resultaat. Om dergelijke workflow-stijl data op schaal te construeren, stellen we een agent-gebaseerde synthesepijplijn voor: een Planner regisseert de laag-voor-laag-generatie van compositionele voorwaarden, terwijl een Verifieerbare Programmatische Tussenrepresentatie (VPIR) ervoor zorgt dat de voorwaarde van elke laag mechanisch verifieerbaar is. Een Composer assembleert vervolgens deze geverifieerde lagen tot complete instructies. Met behulp van deze pijplijn construeren we benchmarks in drie visuele domeinen: natuurlijke afbeeldingen, datagraphieken en GUI-trajecten. Experimenten met een reeks MLLM's tonen aan dat zelfs het sterkste model slechts 53,33 Path F1 behaalt, met scherpe dalingen op harde negatieven en naarmate de diepte of predikaatcomplexiteit toeneemt, wat bevestigt dat diepe compositionele redenering een fundamentele uitdaging blijft.

English

Multimodal Large Language Models (MLLMs) are increasingly used to carry out visual workflows such as navigating GUIs, where the next step depends on verified visual compositional conditions (e.g., "if a permission dialog appears and the color of the interface is green, click Allow") and the process may branch or terminate early. Yet this capability remains under-evaluated: existing benchmarks focus on shallow-compositions or independent-constraints rather than deeply chained compositional conditionals. In this paper, we introduce MM-CondChain, a benchmark for visually grounded deep compositional reasoning. Each benchmark instance is organized as a multi-layer reasoning chain, where every layer contains a non-trivial compositional condition grounded in visual evidence and built from multiple objects, attributes, or relations. To answer correctly, an MLLM must perceive the image in detail, reason over multiple visual elements at each step, and follow the resulting execution path to the final outcome. To scalably construct such workflow-style data, we propose an agentic synthesis pipeline: a Planner orchestrates layer-by-layer generation of compositional conditions, while a Verifiable Programmatic Intermediate Representation (VPIR) ensures each layer's condition is mechanically verifiable. A Composer then assembles these verified layers into complete instructions. Using this pipeline, we construct benchmarks across three visual domains: natural images, data charts, and GUI trajectories. Experiments on a range of MLLMs show that even the strongest model attains only 53.33 Path F1, with sharp drops on hard negatives and as depth or predicate complexity grows, confirming that deep compositional reasoning remains a fundamental challenge.

MM-CondChain: Een programmatisch geverifieerde benchmark voor visueel ondersteund diep compositioneel redeneren

MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

Samenvatting

Support