MM-CondChain: Um Benchmark Programaticamente Verificado para Raciocínio Composicional Profundo com Base Visual

Resumo

Os Modelos de Linguagem de Grande Porte Multimodais (MLLMs) são cada vez mais utilizados para executar fluxos de trabalho visuais, como a navegação em interfaces gráficas de utilizador (GUIs), onde o próximo passo depende de condições composicionais visuais verificadas (por exemplo, "se aparecer uma caixa de diálogo de permissão e a cor da interface for verde, clique em Permitir") e o processo pode ramificar-se ou terminar antecipadamente. No entanto, esta capacidade permanece subavaliada: os *benchmarks* existentes focam-se em composições superficiais ou em restrições independentes, em vez de em condicionais composicionais profundamente encadeadas. Neste artigo, apresentamos o MM-CondChain, um *benchmark* para raciocínio composicional profundo com base visual. Cada instância do *benchmark* está organizada como uma cadeia de raciocínio de múltiplas camadas, onde cada camada contém uma condição composicional não trivial, fundamentada em evidências visuais e construída a partir de múltiplos objetos, atributos ou relações. Para responder corretamente, um MLLM deve perceber a imagem em detalhe, raciocinar sobre múltiplos elementos visuais em cada passo e seguir o caminho de execução resultante até ao resultado final. Para construir de forma escalável estes dados de estilo de fluxo de trabalho, propomos um *pipeline* de síntese agentico: um Planeador (*Planner*) orquestra a geração camada-a-camada de condições composicionais, enquanto uma Representação Intermediária Programática Verificável (RIPV) garante que a condição de cada camada é mecanicamente verificável. Um Compositor (*Composer*) monta então estas camadas verificadas em instruções completas. Utilizando este *pipeline*, construímos *benchmarks* em três domínios visuais: imagens naturais, gráficos de dados e trajetórias de GUI. Experiências com uma variedade de MLLMs mostram que mesmo o modelo mais forte atinge apenas 53.33 de F1 de Caminho (*Path F1*), com quedas acentuadas em negativos difíceis e à medida que a profundidade ou a complexidade dos predicados aumenta, confirmando que o raciocínio composicional profundo permanece um desafio fundamental.

English

Multimodal Large Language Models (MLLMs) are increasingly used to carry out visual workflows such as navigating GUIs, where the next step depends on verified visual compositional conditions (e.g., "if a permission dialog appears and the color of the interface is green, click Allow") and the process may branch or terminate early. Yet this capability remains under-evaluated: existing benchmarks focus on shallow-compositions or independent-constraints rather than deeply chained compositional conditionals. In this paper, we introduce MM-CondChain, a benchmark for visually grounded deep compositional reasoning. Each benchmark instance is organized as a multi-layer reasoning chain, where every layer contains a non-trivial compositional condition grounded in visual evidence and built from multiple objects, attributes, or relations. To answer correctly, an MLLM must perceive the image in detail, reason over multiple visual elements at each step, and follow the resulting execution path to the final outcome. To scalably construct such workflow-style data, we propose an agentic synthesis pipeline: a Planner orchestrates layer-by-layer generation of compositional conditions, while a Verifiable Programmatic Intermediate Representation (VPIR) ensures each layer's condition is mechanically verifiable. A Composer then assembles these verified layers into complete instructions. Using this pipeline, we construct benchmarks across three visual domains: natural images, data charts, and GUI trajectories. Experiments on a range of MLLMs show that even the strongest model attains only 53.33 Path F1, with sharp drops on hard negatives and as depth or predicate complexity grows, confirming that deep compositional reasoning remains a fundamental challenge.