ChatPaper.aiChatPaper

Extraction Structurée à partir de Diagrammes de Processus Métier à l'aide de Modèles Vision-Langage

Structured Extraction from Business Process Diagrams Using Vision-Language Models

November 27, 2025
papers.authors: Pritam Deka, Barry Devereux
cs.AI

papers.abstract

La Business Process Model and Notation (BPMN) est une norme largement adoptée pour la représentation des flux de travail métier complexes. Bien que les diagrammes BPMN soient souvent échangés sous forme d'images visuelles, les méthodes existantes reposent principalement sur des représentations XML pour l'analyse computationnelle. Dans ce travail, nous présentons un pipeline qui exploite les modèles vision-langage (VLM) pour extraire des représentations structurées en JSON de diagrammes BPMN directement à partir d'images, sans nécessiter les fichiers sources du modèle ou des annotations textuelles. Nous intégrons également la reconnaissance optique de caractères (OCR) pour l'enrichissement textuel et évaluons les listes d'éléments générées par rapport à des données de référence dérivées des fichiers XML sources. Notre approche permet une extraction robuste des composants dans les scénarios où les fichiers sources originaux ne sont pas disponibles. Nous comparons plusieurs modèles VLM et observons des améliorations de performance pour plusieurs modèles lorsque l'OCR est utilisé pour l'enrichissement textuel. De plus, nous avons mené des analyses statistiques approfondies des méthodes d'enrichissement basées sur l'OCR et des études d'ablation des prompts, fournissant une compréhension plus claire de leur impact sur la performance des modèles.
English
Business Process Model and Notation (BPMN) is a widely adopted standard for representing complex business workflows. While BPMN diagrams are often exchanged as visual images, existing methods primarily rely on XML representations for computational analysis. In this work, we present a pipeline that leverages Vision-Language Models (VLMs) to extract structured JSON representations of BPMN diagrams directly from images, without requiring source model files or textual annotations. We also incorporate optical character recognition (OCR) for textual enrichment and evaluate the generated element lists against ground truth data derived from the source XML files. Our approach enables robust component extraction in scenarios where original source files are unavailable. We benchmark multiple VLMs and observe performance improvements in several models when OCR is used for text enrichment. In addition, we conducted extensive statistical analyses of OCR-based enrichment methods and prompt ablation studies, providing a clearer understanding of their impact on model performance.
PDF01December 3, 2025