MM-CondChain: Un Punto de Referencia Verificado Programáticamente para el Razonamiento Composicional Profundo con Base Visual

Resumen

Los Modelos de Lenguaje Grandes Multimodales (MLLMs) se utilizan cada vez más para ejecutar flujos de trabajo visuales, como la navegación por interfaces gráficas de usuario (GUI), donde el siguiente paso depende de condiciones composicionales visuales verificadas (por ejemplo, "si aparece un diálogo de permisos y el color de la interfaz es verde, haz clic en Permitir") y el proceso puede ramificarse o terminar anticipadamente. Sin embargo, esta capacidad sigue estando infraevaluada: los puntos de referencia existentes se centran en composiciones superficiales o restricciones independientes, en lugar de condicionales composicionales profundamente encadenados. En este artículo, presentamos MM-CondChain, un punto de referencia para el razonamiento composicional profundo con base visual. Cada instancia del benchmark está organizada como una cadena de razonamiento multicapa, donde cada capa contiene una condición composicional no trivial basada en evidencia visual y construida a partir de múltiples objetos, atributos o relaciones. Para responder correctamente, un MLLM debe percibir la imagen en detalle, razonar sobre múltiples elementos visuales en cada paso y seguir la ruta de ejecución resultante hasta el resultado final. Para construir de manera escalable estos datos de estilo flujo de trabajo, proponemos una canalización de síntesis agentiva: un Planificador orquesta la generación capa por capa de condiciones composicionales, mientras que una Representación Intermedia Programática Verificable (VPIR) garantiza que la condición de cada capa sea mecánicamente verificable. Un Compositor luego ensambla estas capas verificadas en instrucciones completas. Utilizando esta canalización, construimos puntos de referencia en tres dominios visuales: imágenes naturales, gráficos de datos y trayectorias de GUI. Los experimentos con una variedad de MLLMs muestran que incluso el modelo más potente alcanza solo un 53.33 de F1 en la Ruta, con caídas pronunciadas en negativos difíciles y a medida que aumenta la profundidad o la complejidad de los predicados, lo que confirma que el razonamiento composicional profundo sigue siendo un desafío fundamental.

English

Multimodal Large Language Models (MLLMs) are increasingly used to carry out visual workflows such as navigating GUIs, where the next step depends on verified visual compositional conditions (e.g., "if a permission dialog appears and the color of the interface is green, click Allow") and the process may branch or terminate early. Yet this capability remains under-evaluated: existing benchmarks focus on shallow-compositions or independent-constraints rather than deeply chained compositional conditionals. In this paper, we introduce MM-CondChain, a benchmark for visually grounded deep compositional reasoning. Each benchmark instance is organized as a multi-layer reasoning chain, where every layer contains a non-trivial compositional condition grounded in visual evidence and built from multiple objects, attributes, or relations. To answer correctly, an MLLM must perceive the image in detail, reason over multiple visual elements at each step, and follow the resulting execution path to the final outcome. To scalably construct such workflow-style data, we propose an agentic synthesis pipeline: a Planner orchestrates layer-by-layer generation of compositional conditions, while a Verifiable Programmatic Intermediate Representation (VPIR) ensures each layer's condition is mechanically verifiable. A Composer then assembles these verified layers into complete instructions. Using this pipeline, we construct benchmarks across three visual domains: natural images, data charts, and GUI trajectories. Experiments on a range of MLLMs show that even the strongest model attains only 53.33 Path F1, with sharp drops on hard negatives and as depth or predicate complexity grows, confirming that deep compositional reasoning remains a fundamental challenge.

MM-CondChain: Un Punto de Referencia Verificado Programáticamente para el Razonamiento Composicional Profundo con Base Visual

MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

Resumen

Support