MM-CondChain: 시각적 기반 심층 구성적 추론을 위한 프로그램 검증 벤치마크
MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning
March 12, 2026
저자: Haozhan Shen, Shilin Yan, Hongwei Xue, Shuaiqi Lu, Xiaojun Tang, Guannan Zhang, Tiancheng Zhao, Jianwei Yin
cs.AI
초록
멀티모달 대규모 언어 모델(MLLMs)은 GUI 탐색과 같은 시각적 워크플로우를 수행하는 데 점차 활용되고 있으며, 여기서 다음 단계는 검증된 시각적 구성 조건(예: "권한 대화상자가 나타나고 인터페이스 색상이 녹색이면 '허용'을 클릭하라")에 따라 결정되고 프로세스가 분기되거나 조기에 종료될 수 있습니다. 그러나 이러한 능력은 여전히 제대로 평가되지 않고 있습니다: 기존 벤치마크는 깊은 구성 체인보다는 단순 구성 또는 독립적 제약 조건에 초점을 맞추고 있습니다. 본 논문에서는 시각적으로 기반한 깊은 구성적 추론을 위한 벤치마크인 MM-CondChain을 소개합니다. 각 벤치마크 인스턴스는 다중 계층 추론 체인으로 구성되며, 각 계층에는 시각적 증거에 기반하고 여러 객체, 속성 또는 관계로 구성된 비단순적인(non-trivial) 구성 조건이 포함됩니다. MLLM은 정답을 도출하기 위해 이미지를 세부적으로 인지하고, 각 단계에서 여러 시각 요소에 대해 추론하며, 결과적인 실행 경로를 따라 최종 결과에 도달해야 합니다. 이러한 워크플로우 스타일 데이터를 확장 가능하게 구축하기 위해 우리는 에이전트 기반 합성 파이프라인을 제안합니다: 플래너(Planner)는 구성 조건의 계층별 생성을 조정하고, 검증 가능한 프로그램적 중간 표현(VPIR)은 각 계층의 조건이 기계적으로 검증 가능하도록 보장합니다. 그런 다음 컴포저(Composer)가 이러한 검증된 계층들을 완전한 지시문으로 조립합니다. 이 파이프라인을 사용하여 우리는 자연 이미지, 데이터 차트, GUI 트레이젝토리라는 세 가지 시각 영역에 걸쳐 벤치마크를 구축합니다. 다양한 MLLM에 대한 실험 결과, 가장 강력한 모델조차 Path F1 점수에서 53.33%에 그치며, 난이도 높은 부정형(hard negatives)에서와 깊이 또는 술어 복잡성이 증가함에 따라 성능이 급격히 하락하는 것을 확인하였고, 이는 깊은 구성적 추론이 여전히 근본적인 과제로 남아 있음을 입증합니다.
English
Multimodal Large Language Models (MLLMs) are increasingly used to carry out visual workflows such as navigating GUIs, where the next step depends on verified visual compositional conditions (e.g., "if a permission dialog appears and the color of the interface is green, click Allow") and the process may branch or terminate early. Yet this capability remains under-evaluated: existing benchmarks focus on shallow-compositions or independent-constraints rather than deeply chained compositional conditionals. In this paper, we introduce MM-CondChain, a benchmark for visually grounded deep compositional reasoning. Each benchmark instance is organized as a multi-layer reasoning chain, where every layer contains a non-trivial compositional condition grounded in visual evidence and built from multiple objects, attributes, or relations. To answer correctly, an MLLM must perceive the image in detail, reason over multiple visual elements at each step, and follow the resulting execution path to the final outcome. To scalably construct such workflow-style data, we propose an agentic synthesis pipeline: a Planner orchestrates layer-by-layer generation of compositional conditions, while a Verifiable Programmatic Intermediate Representation (VPIR) ensures each layer's condition is mechanically verifiable. A Composer then assembles these verified layers into complete instructions. Using this pipeline, we construct benchmarks across three visual domains: natural images, data charts, and GUI trajectories. Experiments on a range of MLLMs show that even the strongest model attains only 53.33 Path F1, with sharp drops on hard negatives and as depth or predicate complexity grows, confirming that deep compositional reasoning remains a fundamental challenge.