ChatPaper.aiChatPaper

Extracción Estructurada de Diagramas de Procesos de Negocio mediante Modelos de Visión y Lenguaje

Structured Extraction from Business Process Diagrams Using Vision-Language Models

November 27, 2025
Autores: Pritam Deka, Barry Devereux
cs.AI

Resumen

El Modelo y Notación de Procesos de Negocio (BPMN) es un estándar ampliamente adoptado para representar flujos de trabajo empresariales complejos. Si bien los diagramas BPMN a menudo se intercambian como imágenes visuales, los métodos existentes se basan principalmente en representaciones XML para el análisis computacional. En este trabajo, presentamos un pipeline que aprovecha los Modelos de Visión y Lenguaje (VLMs) para extraer representaciones estructuradas en JSON de diagramas BPMN directamente desde imágenes, sin requerir archivos fuente del modelo o anotaciones textuales. También incorporamos el reconocimiento óptico de caracteres (OCR) para el enriquecimiento textual y evaluamos las listas de elementos generadas frente a datos de referencia derivados de los archivos XML fuente. Nuestro enfoque permite una extracción robusta de componentes en escenarios donde los archivos fuente originales no están disponibles. Evaluamos múltiples VLMs y observamos mejoras en el rendimiento de varios modelos cuando se utiliza OCR para el enriquecimiento de texto. Además, realizamos extensos análisis estadísticos de los métodos de enriquecimiento basados en OCR y estudios de ablación de prompts, proporcionando una comprensión más clara de su impacto en el rendimiento del modelo.
English
Business Process Model and Notation (BPMN) is a widely adopted standard for representing complex business workflows. While BPMN diagrams are often exchanged as visual images, existing methods primarily rely on XML representations for computational analysis. In this work, we present a pipeline that leverages Vision-Language Models (VLMs) to extract structured JSON representations of BPMN diagrams directly from images, without requiring source model files or textual annotations. We also incorporate optical character recognition (OCR) for textual enrichment and evaluate the generated element lists against ground truth data derived from the source XML files. Our approach enables robust component extraction in scenarios where original source files are unavailable. We benchmark multiple VLMs and observe performance improvements in several models when OCR is used for text enrichment. In addition, we conducted extensive statistical analyses of OCR-based enrichment methods and prompt ablation studies, providing a clearer understanding of their impact on model performance.
PDF01December 3, 2025