ChatPaper.aiChatPaper

Структурированное извлечение информации из диаграмм бизнес-процессов с использованием визуально-языковых моделей

Structured Extraction from Business Process Diagrams Using Vision-Language Models

November 27, 2025
Авторы: Pritam Deka, Barry Devereux
cs.AI

Аннотация

Business Process Model and Notation (BPMN) — это широко распространенный стандарт для представления сложных бизнес-процессов. Хотя диаграммы BPMN часто обмениваются в виде визуальных изображений, существующие методы в основном опираются на XML-представления для вычислительного анализа. В данной работе мы представляем конвейер, который использует Vision-Language Models (VLM) для извлечения структурированных JSON-представлений диаграмм BPMN непосредственно из изображений, без необходимости в исходных файлах моделей или текстовых аннотациях. Мы также интегрируем оптическое распознавание символов (OCR) для текстового обогащения и оцениваем сгенерированные списки элементов по сравнению с эталонными данными, полученными из исходных XML-файлов. Наш подход позволяет обеспечить надежное извлечение компонентов в сценариях, где исходные файлы недоступны. Мы проводим сравнительный анализ нескольких VLM и отмечаем улучшение производительности у ряда моделей при использовании OCR для текстового обогащения. Кроме того, мы провели обширный статистический анализ методов обогащения на основе OCR и исследования абляции промптов, что дает более четкое понимание их влияния на производительность модели.
English
Business Process Model and Notation (BPMN) is a widely adopted standard for representing complex business workflows. While BPMN diagrams are often exchanged as visual images, existing methods primarily rely on XML representations for computational analysis. In this work, we present a pipeline that leverages Vision-Language Models (VLMs) to extract structured JSON representations of BPMN diagrams directly from images, without requiring source model files or textual annotations. We also incorporate optical character recognition (OCR) for textual enrichment and evaluate the generated element lists against ground truth data derived from the source XML files. Our approach enables robust component extraction in scenarios where original source files are unavailable. We benchmark multiple VLMs and observe performance improvements in several models when OCR is used for text enrichment. In addition, we conducted extensive statistical analyses of OCR-based enrichment methods and prompt ablation studies, providing a clearer understanding of their impact on model performance.
PDF01December 3, 2025