MM-CondChain: Программно верифицированный бенчмарк для визуально обоснованного глубокого композиционного мышления

Аннотация

Мультимодальные большие языковые модели (MБЯМ) всё чаще применяются для выполнения визуальных рабочих процессов, таких как навигация по графическим интерфейсам (GUI), где следующий шаг зависит от проверенных визуальных композиционных условий (например, «если появилось диалоговое окно разрешений и цвет интерфейса зелёный, нажмите "Разрешить"»), а процесс может ветвиться или завершаться досрочно. Однако эта возможность остаётся недостаточно оценённой: существующие бенчмарки фокусируются на поверхностных композициях или независимых ограничениях, а не на глубоко связанных композиционных условных конструкциях. В данной статье мы представляем MM-CondChain — бенчмарк для визуально обоснованного глубокого композиционного рассуждения. Каждый экземпляр бенчмарка организован как многоуровневая цепочка рассуждений, где каждый уровень содержит нетривиальное композиционное условие, основанное на визуальных свидетельствах и построенное из множества объектов, атрибутов или отношений. Для правильного ответа МБЯМ должна детально воспринимать изображение, анализировать множество визуальных элементов на каждом шаге и следовать результирующему пути выполнения до конечного результата. Для масштабируемого построения таких данных в стиле рабочих процессов мы предлагаем агентный синтезирующий конвейер: Планировщик (Planner) организует поэтапную генерацию композиционных условий, а Проверяемое программное промежуточное представление (Verifiable Programmatic Intermediate Representation, VPIR) гарантирует, что условие каждого уровня является механически проверяемым. Затем Компоновщик (Composer) собирает эти проверенные уровни в полные инструкции. Используя этот конвейер, мы создаём бенчмарки для трёх визуальных доменов: натуральные изображения, диаграммы данных и траектории GUI. Эксперименты с рядом МБЯМ показывают, что даже самая мощная модель достигает всего 53.33 Path F1, с резким падением производительности на сложных негативных примерах и по мере роста глубины цепочки или сложности предикатов, что подтверждает: глубокое композиционное рассуждение остаётся фундаментальной проблемой.

English

Multimodal Large Language Models (MLLMs) are increasingly used to carry out visual workflows such as navigating GUIs, where the next step depends on verified visual compositional conditions (e.g., "if a permission dialog appears and the color of the interface is green, click Allow") and the process may branch or terminate early. Yet this capability remains under-evaluated: existing benchmarks focus on shallow-compositions or independent-constraints rather than deeply chained compositional conditionals. In this paper, we introduce MM-CondChain, a benchmark for visually grounded deep compositional reasoning. Each benchmark instance is organized as a multi-layer reasoning chain, where every layer contains a non-trivial compositional condition grounded in visual evidence and built from multiple objects, attributes, or relations. To answer correctly, an MLLM must perceive the image in detail, reason over multiple visual elements at each step, and follow the resulting execution path to the final outcome. To scalably construct such workflow-style data, we propose an agentic synthesis pipeline: a Planner orchestrates layer-by-layer generation of compositional conditions, while a Verifiable Programmatic Intermediate Representation (VPIR) ensures each layer's condition is mechanically verifiable. A Composer then assembles these verified layers into complete instructions. Using this pipeline, we construct benchmarks across three visual domains: natural images, data charts, and GUI trajectories. Experiments on a range of MLLMs show that even the strongest model attains only 53.33 Path F1, with sharp drops on hard negatives and as depth or predicate complexity grows, confirming that deep compositional reasoning remains a fundamental challenge.

MM-CondChain: Программно верифицированный бенчмарк для визуально обоснованного глубокого композиционного мышления

MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

Аннотация

Support