ChatPaper.aiChatPaper

Gestructureerde extractie uit bedrijfsprocessendiagrammen met behulp van vision-language modellen

Structured Extraction from Business Process Diagrams Using Vision-Language Models

November 27, 2025
Auteurs: Pritam Deka, Barry Devereux
cs.AI

Samenvatting

Het Business Process Model and Notation (BPMN) is een veelgebruikte standaard voor het weergeven van complexe bedrijfsprocessen. Hoewel BPMN-diagrammen vaak als visuele afbeeldingen worden uitgewisseld, zijn bestaande methoden voor computationele analyse voornamelijk gebaseerd op XML-representaties. In dit werk presenteren we een pijplijn die Vision-Language Models (VLM's) gebruikt om gestructureerde JSON-representaties van BPMN-diagrammen direct uit afbeeldingen te extraheren, zonder bronmodelbestanden of tekstuele annotaties nodig te hebben. We integreren ook optische tekenherkenning (OCR) voor tekstuele verrijking en evalueren de gegenereerde elementenlijsten aan de hand van grondgegevens afkomstig uit de bron-XML-bestanden. Onze aanpak maakt robuuste componentextractie mogelijk in scenario's waarin de oorspronkelijke bronbestanden niet beschikbaar zijn. We testen meerdere VLM's en constateren prestatieverbeteringen in verschillende modellen wanneer OCR voor tekstverrijking wordt gebruikt. Daarnaast voerden we uitgebreide statistische analyses uit van op OCR gebaseerde verrijkingsmethoden en prompt-ablatiestudies, wat een duidelijker inzicht geeft in hun impact op modelprestaties.
English
Business Process Model and Notation (BPMN) is a widely adopted standard for representing complex business workflows. While BPMN diagrams are often exchanged as visual images, existing methods primarily rely on XML representations for computational analysis. In this work, we present a pipeline that leverages Vision-Language Models (VLMs) to extract structured JSON representations of BPMN diagrams directly from images, without requiring source model files or textual annotations. We also incorporate optical character recognition (OCR) for textual enrichment and evaluate the generated element lists against ground truth data derived from the source XML files. Our approach enables robust component extraction in scenarios where original source files are unavailable. We benchmark multiple VLMs and observe performance improvements in several models when OCR is used for text enrichment. In addition, we conducted extensive statistical analyses of OCR-based enrichment methods and prompt ablation studies, providing a clearer understanding of their impact on model performance.
PDF01December 3, 2025