비전-언어 모델을 활용한 비즈니스 프로세스 다이어그램의 구조적 정보 추출
Structured Extraction from Business Process Diagrams Using Vision-Language Models
November 27, 2025
저자: Pritam Deka, Barry Devereux
cs.AI
초록
비즈니스 프로세스 모델 및 표기법(BPMN)은 복잡한 비즈니스 워크플로를 표현하기 위해 널리 채택된 표준입니다. BPMN 다이어그램은 시각적 이미지로 교환되는 경우가 많지만, 기존의 계산적 분석 방법은 주로 XML 표현에 의존해 왔습니다. 본 연구에서는 시각-언어 모델(VLM)을 활용하여 소스 모델 파일이나 텍스트 주석 없이도 이미지로부터 직접 BPMN 다이어그램의 구조화된 JSON 표현을 추출하는 파이프라인을 제시합니다. 또한 텍스트 보강을 위해 광학 문자 인식(OCR)을 통합하고, 생성된 요소 목록을 소스 XML 파일에서 도출된 실제 데이터와 비교하여 평가합니다. 우리의 접근 방식은 원본 소스 파일을 사용할 수 없는 시나리오에서도 강력한 구성 요소 추출을 가능하게 합니다. 여러 VLM을 벤치마킹한 결과, 텍스트 보강을 위해 OCR을 사용할 때 여러 모델에서 성능 향상을 관찰했습니다. 또한 OCR 기반 보강 방법과 프롬프트 제거(ablation) 연구에 대한 광범위한 통계 분석을 수행하여 모델 성능에 미치는 영향을 보다 명확히 이해할 수 있도록 했습니다.
English
Business Process Model and Notation (BPMN) is a widely adopted standard for representing complex business workflows. While BPMN diagrams are often exchanged as visual images, existing methods primarily rely on XML representations for computational analysis. In this work, we present a pipeline that leverages Vision-Language Models (VLMs) to extract structured JSON representations of BPMN diagrams directly from images, without requiring source model files or textual annotations. We also incorporate optical character recognition (OCR) for textual enrichment and evaluate the generated element lists against ground truth data derived from the source XML files. Our approach enables robust component extraction in scenarios where original source files are unavailable. We benchmark multiple VLMs and observe performance improvements in several models when OCR is used for text enrichment. In addition, we conducted extensive statistical analyses of OCR-based enrichment methods and prompt ablation studies, providing a clearer understanding of their impact on model performance.