Strukturierte Extraktion aus Geschäftsprozessdiagrammen mithilfe von Vision-Language-Modellen
Structured Extraction from Business Process Diagrams Using Vision-Language Models
November 27, 2025
papers.authors: Pritam Deka, Barry Devereux
cs.AI
papers.abstract
Die Business Process Model and Notation (BPMN) ist ein weit verbreiteter Standard zur Darstellung komplexer Geschäftsprozesse. Obwohl BPMN-Diagramme häufig als visuelle Bilder ausgetauscht werden, stützen sich bestehende Methoden für die computergestützte Analyse hauptsächlich auf XML-Darstellungen. In dieser Arbeit stellen wir eine Pipeline vor, die Vision-Language-Modelle (VLMs) nutzt, um strukturierte JSON-Repräsentationen von BPMN-Diagrammen direkt aus Bildern zu extrahieren, ohne dass Quelldateien des Modells oder textuelle Annotationen erforderlich sind. Wir integrieren außerdem optische Zeichenerkennung (OCR) zur textuellen Anreicherung und bewerten die generierten Elementlisten anhand von Grundwahrheitsdaten aus den ursprünglichen XML-Dateien. Unser Ansatz ermöglicht eine robuste Komponentenextraktion in Szenarien, in denen die ursprünglichen Quelldateien nicht verfügbar sind. Wir benchmarken mehrere VLMs und beobachten Leistungsverbesserungen bei mehreren Modellen, wenn OCR zur Textanreicherung eingesetzt wird. Darüber hinaus führten wir umfassende statistische Analysen der OCR-basierten Anreicherungsmethoden sowie Prompt-Ablationsstudien durch, die ein klareres Verständnis ihrer Auswirkungen auf die Modellleistung ermöglichen.
English
Business Process Model and Notation (BPMN) is a widely adopted standard for representing complex business workflows. While BPMN diagrams are often exchanged as visual images, existing methods primarily rely on XML representations for computational analysis. In this work, we present a pipeline that leverages Vision-Language Models (VLMs) to extract structured JSON representations of BPMN diagrams directly from images, without requiring source model files or textual annotations. We also incorporate optical character recognition (OCR) for textual enrichment and evaluate the generated element lists against ground truth data derived from the source XML files. Our approach enables robust component extraction in scenarios where original source files are unavailable. We benchmark multiple VLMs and observe performance improvements in several models when OCR is used for text enrichment. In addition, we conducted extensive statistical analyses of OCR-based enrichment methods and prompt ablation studies, providing a clearer understanding of their impact on model performance.