ChatPaper.aiChatPaper

Estrazione Strutturata da Diagrammi di Processi Aziendali Utilizzando Modelli Visione-Linguaggio

Structured Extraction from Business Process Diagrams Using Vision-Language Models

November 27, 2025
Autori: Pritam Deka, Barry Devereux
cs.AI

Abstract

La Business Process Model and Notation (BPMN) è uno standard ampiamente adottato per rappresentare flussi di lavoro aziendali complessi. Sebbene i diagrammi BPMN siano spesso scambiati come immagini visive, i metodi esistenti si basano principalmente su rappresentazioni XML per l'analisi computazionale. In questo lavoro, presentiamo una pipeline che sfrutta i Vision-Language Models (VLM) per estrarre rappresentazioni strutturate in JSON di diagrammi BPMN direttamente dalle immagini, senza richiedere file di modello sorgente o annotazioni testuali. Incorporiamo inoltre il riconoscimento ottico dei caratteri (OCR) per l'arricchimento testuale e valutiamo gli elenchi di elementi generati rispetto a dati di verità derivati dai file XML sorgente. Il nostro approccio consente un'estrazione robusta dei componenti negli scenari in cui i file sorgente originali non sono disponibili. Abbiamo confrontato le prestazioni di diversi VLM e osservato miglioramenti in diversi modelli quando viene utilizzato l'OCR per l'arricchimento testuale. Inoltre, abbiamo condotto ampie analisi statistiche sui metodi di arricchimento basati su OCR e studi di ablazione dei prompt, fornendo una comprensione più chiara del loro impatto sulle prestazioni del modello.
English
Business Process Model and Notation (BPMN) is a widely adopted standard for representing complex business workflows. While BPMN diagrams are often exchanged as visual images, existing methods primarily rely on XML representations for computational analysis. In this work, we present a pipeline that leverages Vision-Language Models (VLMs) to extract structured JSON representations of BPMN diagrams directly from images, without requiring source model files or textual annotations. We also incorporate optical character recognition (OCR) for textual enrichment and evaluate the generated element lists against ground truth data derived from the source XML files. Our approach enables robust component extraction in scenarios where original source files are unavailable. We benchmark multiple VLMs and observe performance improvements in several models when OCR is used for text enrichment. In addition, we conducted extensive statistical analyses of OCR-based enrichment methods and prompt ablation studies, providing a clearer understanding of their impact on model performance.
PDF01December 3, 2025