Extração Estruturada de Diagramas de Processos de Negócio Utilizando Modelos de Visão e Linguagem

Resumo

A Notação e Modelo de Processos de Negócio (BPMN) é um padrão amplamente adotado para representar fluxos de trabalho empresariais complexos. Embora os diagramas BPMN sejam frequentemente trocados como imagens visuais, os métodos existentes dependem principalmente de representações XML para análise computacional. Neste trabalho, apresentamos um *pipeline* que aproveita os Modelos de Visão e Linguagem (VLMs) para extrair representações estruturadas em JSON de diagramas BPMN diretamente de imagens, sem a necessidade de ficheiros de modelo fonte ou anotações textuais. Também incorporamos o reconhecimento ótico de caracteres (OCR) para enriquecimento textual e avaliamos as listas de elementos geradas em comparação com dados de referência derivados dos ficheiros XML originais. A nossa abordagem permite uma extração robusta de componentes em cenários onde os ficheiros fonte originais não estão disponíveis. Avaliámos vários VLMs e observámos melhorias de desempenho em vários modelos quando o OCR é utilizado para enriquecimento de texto. Além disso, realizámos análises estatísticas extensivas de métodos de enriquecimento baseados em OCR e estudos de ablação de *prompts*, fornecendo uma compreensão mais clara do seu impacto no desempenho do modelo.

English

Business Process Model and Notation (BPMN) is a widely adopted standard for representing complex business workflows. While BPMN diagrams are often exchanged as visual images, existing methods primarily rely on XML representations for computational analysis. In this work, we present a pipeline that leverages Vision-Language Models (VLMs) to extract structured JSON representations of BPMN diagrams directly from images, without requiring source model files or textual annotations. We also incorporate optical character recognition (OCR) for textual enrichment and evaluate the generated element lists against ground truth data derived from the source XML files. Our approach enables robust component extraction in scenarios where original source files are unavailable. We benchmark multiple VLMs and observe performance improvements in several models when OCR is used for text enrichment. In addition, we conducted extensive statistical analyses of OCR-based enrichment methods and prompt ablation studies, providing a clearer understanding of their impact on model performance.