MM-CondChain : Un benchmark vérifié programmatiquement pour le raisonnement compositionnel profond visuellement ancré
MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning
March 12, 2026
Auteurs: Haozhan Shen, Shilin Yan, Hongwei Xue, Shuaiqi Lu, Xiaojun Tang, Guannan Zhang, Tiancheng Zhao, Jianwei Yin
cs.AI
Résumé
Les modèles de langage multimodaux (MLLM) sont de plus en plus utilisés pour exécuter des flux de travail visuels tels que la navigation d'interfaces graphiques, où l'étape suivante dépend de conditions compositionnelles visuelles vérifiées (par exemple, « si une boîte de dialogue d'autorisation apparaît et que la couleur de l'interface est verte, cliquez sur Autoriser ») et où le processus peut bifurquer ou se terminer prématurément. Pourtant, cette capacité reste sous-évaluée : les benchmarks existants se concentrent sur des compositions superficielles ou des contraintes indépendantes plutôt que sur des conditionnelles compositionnelles profondément enchaînées. Dans cet article, nous présentons MM-CondChain, un benchmark pour le raisonnement compositionnel profond ancré dans le visuel. Chaque instance du benchmark est organisée comme une chaîne de raisonnement à plusieurs niveaux, où chaque niveau contient une condition compositionnelle non triviale fondée sur des preuves visuelles et construite à partir de multiples objets, attributs ou relations. Pour répondre correctement, un MLLM doit percevoir l'image en détail, raisonner sur plusieurs éléments visuels à chaque étape et suivre le chemin d'exécution résultant jusqu'au résultat final. Pour construire de manière scalable des données de type flux de travail, nous proposons un pipeline de synthèse agentique : un Planificateur orchestre la génération couche par couche des conditions compositionnelles, tandis qu'une Représentation Intermédiaire Programmatique Vérifiable (VPIR) garantit que la condition de chaque couche est mécaniquement vérifiable. Un Compositeur assemble ensuite ces couches vérifiées en instructions complètes. En utilisant ce pipeline, nous construisons des benchmarks couvrant trois domaines visuels : les images naturelles, les graphiques de données et les trajectoires d'interfaces graphiques. Les expériences sur une gamme de MLLM montrent que même le modèle le plus performant n'atteint que 53,33 en F1 de chemin, avec des chutes brutales sur les négatifs difficiles et à mesure que la profondeur ou la complexité des prédicats augmente, confirmant que le raisonnement compositionnel profond reste un défi fondamental.
English
Multimodal Large Language Models (MLLMs) are increasingly used to carry out visual workflows such as navigating GUIs, where the next step depends on verified visual compositional conditions (e.g., "if a permission dialog appears and the color of the interface is green, click Allow") and the process may branch or terminate early. Yet this capability remains under-evaluated: existing benchmarks focus on shallow-compositions or independent-constraints rather than deeply chained compositional conditionals. In this paper, we introduce MM-CondChain, a benchmark for visually grounded deep compositional reasoning. Each benchmark instance is organized as a multi-layer reasoning chain, where every layer contains a non-trivial compositional condition grounded in visual evidence and built from multiple objects, attributes, or relations. To answer correctly, an MLLM must perceive the image in detail, reason over multiple visual elements at each step, and follow the resulting execution path to the final outcome. To scalably construct such workflow-style data, we propose an agentic synthesis pipeline: a Planner orchestrates layer-by-layer generation of compositional conditions, while a Verifiable Programmatic Intermediate Representation (VPIR) ensures each layer's condition is mechanically verifiable. A Composer then assembles these verified layers into complete instructions. Using this pipeline, we construct benchmarks across three visual domains: natural images, data charts, and GUI trajectories. Experiments on a range of MLLMs show that even the strongest model attains only 53.33 Path F1, with sharp drops on hard negatives and as depth or predicate complexity grows, confirming that deep compositional reasoning remains a fundamental challenge.