ビジネスプロセス図からの構造化抽出における視覚言語モデルの活用
Structured Extraction from Business Process Diagrams Using Vision-Language Models
November 27, 2025
著者: Pritam Deka, Barry Devereux
cs.AI
要旨
Business Process Model and Notation (BPMN) は、複雑なビジネスワークフローを表現するために広く採用されている標準規格である。BPMN図は視覚的な画像として交換されることが多いが、計算論的分析において既存の手法は主にXML表現に依存している。本研究では、Vision-Language Models (VLM) を活用し、ソースモデルファイルやテキスト注釈を必要とせず、画像から直接BPMN図の構造化されたJSON表現を抽出するパイプラインを提案する。また、テキスト情報を強化するために光学式文字認識(OCR)を組み込み、ソースXMLファイルから得られた正解データと照合して生成された要素リストを評価する。本手法により、原本のソースファイルが利用不能なシナリオにおいても、堅牢なコンポーネント抽出が可能となる。複数のVLMを比較評価した結果、テキスト強化にOCRを利用することで、いくつかのモデルで性能向上が認められた。加えて、OCRに基づく強化手法に関する詳細な統計分析とプロンプトのアブレーションスタディを実施し、それらがモデル性能に与える影響をより明確に理解するための知見を提供する。
English
Business Process Model and Notation (BPMN) is a widely adopted standard for representing complex business workflows. While BPMN diagrams are often exchanged as visual images, existing methods primarily rely on XML representations for computational analysis. In this work, we present a pipeline that leverages Vision-Language Models (VLMs) to extract structured JSON representations of BPMN diagrams directly from images, without requiring source model files or textual annotations. We also incorporate optical character recognition (OCR) for textual enrichment and evaluate the generated element lists against ground truth data derived from the source XML files. Our approach enables robust component extraction in scenarios where original source files are unavailable. We benchmark multiple VLMs and observe performance improvements in several models when OCR is used for text enrichment. In addition, we conducted extensive statistical analyses of OCR-based enrichment methods and prompt ablation studies, providing a clearer understanding of their impact on model performance.