MM-CondChain: Un Benchmark Verificato Programmabilmente per il Ragionamento Composizionale Profondo Basato sul Visivo

Abstract

I modelli linguistici multimodali di grandi dimensioni (MLLM) sono sempre più utilizzati per eseguire flussi di lavoro visivi, come la navigazione di interfacce grafiche (GUI), in cui il passo successivo dipende da condizioni compositive verificate visivamente (ad esempio, "se appare una finestra di dialogo dei permessi e il colore dell'interfaccia è verde, clicca Consenti") e il processo può diramarsi o terminare in anticipo. Tuttavia, questa capacità rimane sottovalutata: i benchmark esistenti si concentrano su composizioni superficiali o vincoli indipendenti, piuttosto che su condizionali compositivi profondamente concatenati. In questo articolo, presentiamo MM-CondChain, un benchmark per il ragionamento compositivo profondo basato sul visivo. Ogni istanza del benchmark è organizzata come una catena di ragionamento multilivello, in cui ogni livello contiene una condizione compositiva non banale ancorata all'evidenza visiva e costruita da più oggetti, attributi o relazioni. Per rispondere correttamente, un MLLM deve percepire l'immagine in dettaglio, ragionare su più elementi visivi a ogni passo e seguire il percorso di esecuzione risultante fino all'esito finale. Per costruire in modo scalabile dati di questo stile di flusso di lavoro, proponiamo una pipeline di sintesi agentica: un Planner orchestra la generazione strato per strato delle condizioni compositive, mentre una Rappresentazione Intermedia Programmabile Verificabile (VPIR) garantisce che la condizione di ogni livello sia meccanicamente verificabile. Un Composer assembla quindi questi livelli verificati in istruzioni complete. Utilizzando questa pipeline, costruiamo benchmark in tre domini visivi: immagini naturali, grafici di dati e traiettorie di GUI. Esperimenti su una gamma di MLLM mostrano che anche il modello più potente raggiunge solo un Path F1 del 53,33%, con cali netti sui negativi difficili e all'aumentare della profondità o della complessità dei predicati, confermando che il ragionamento compositivo profondo rimane una sfida fondamentale.

English

Multimodal Large Language Models (MLLMs) are increasingly used to carry out visual workflows such as navigating GUIs, where the next step depends on verified visual compositional conditions (e.g., "if a permission dialog appears and the color of the interface is green, click Allow") and the process may branch or terminate early. Yet this capability remains under-evaluated: existing benchmarks focus on shallow-compositions or independent-constraints rather than deeply chained compositional conditionals. In this paper, we introduce MM-CondChain, a benchmark for visually grounded deep compositional reasoning. Each benchmark instance is organized as a multi-layer reasoning chain, where every layer contains a non-trivial compositional condition grounded in visual evidence and built from multiple objects, attributes, or relations. To answer correctly, an MLLM must perceive the image in detail, reason over multiple visual elements at each step, and follow the resulting execution path to the final outcome. To scalably construct such workflow-style data, we propose an agentic synthesis pipeline: a Planner orchestrates layer-by-layer generation of compositional conditions, while a Verifiable Programmatic Intermediate Representation (VPIR) ensures each layer's condition is mechanically verifiable. A Composer then assembles these verified layers into complete instructions. Using this pipeline, we construct benchmarks across three visual domains: natural images, data charts, and GUI trajectories. Experiments on a range of MLLMs show that even the strongest model attains only 53.33 Path F1, with sharp drops on hard negatives and as depth or predicate complexity grows, confirming that deep compositional reasoning remains a fundamental challenge.

MM-CondChain: Un Benchmark Verificato Programmabilmente per il Ragionamento Composizionale Profondo Basato sul Visivo

MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

Abstract

Support