ChatPaper.aiChatPaper

UniHDSA: Un Enfoque Unificado de Predicción de Relaciones para el Análisis de Estructura Jerárquica de Documentos

UniHDSA: A Unified Relation Prediction Approach for Hierarchical Document Structure Analysis

March 20, 2025
Autores: Jiawei Wang, Kai Hu, Qiang Huo
cs.AI

Resumen

El análisis de la estructura de documentos, también conocido como análisis de diseño de documentos, es crucial para comprender tanto la disposición física como la estructura lógica de los documentos, sirviendo para la recuperación de información, la síntesis de documentos, la extracción de conocimiento, entre otros. El Análisis Jerárquico de la Estructura de Documentos (HDSA, por sus siglas en inglés) tiene como objetivo específico restaurar la estructura jerárquica de los documentos creados utilizando software de autoría con esquemas jerárquicos. Investigaciones previas han seguido principalmente dos enfoques: uno se centra en abordar subtareas específicas del HDSA de manera aislada, como la detección de tablas o la predicción del orden de lectura, mientras que el otro adopta un marco unificado que utiliza múltiples ramas o módulos, cada uno diseñado para abordar una tarea distinta. En este trabajo, proponemos un enfoque unificado de predicción de relaciones para el HDSA, llamado UniHDSA, que trata varias subtareas del HDSA como problemas de predicción de relaciones y consolida las etiquetas de predicción de relaciones en un espacio de etiquetas unificado. Esto permite que un único módulo de predicción de relaciones maneje múltiples tareas simultáneamente, ya sea en un análisis de estructura a nivel de página o de documento. Para validar la efectividad de UniHDSA, desarrollamos un sistema multimodal de extremo a extremo basado en arquitecturas Transformer. Los resultados experimentales extensivos demuestran que nuestro enfoque alcanza un rendimiento de vanguardia en un punto de referencia de análisis jerárquico de la estructura de documentos, Comp-HRDoc, y resultados competitivos en un conjunto de datos a gran escala de análisis de diseño de documentos, DocLayNet, ilustrando efectivamente la superioridad de nuestro método en todas las subtareas. El punto de referencia Comp-HRDoc y las configuraciones de UniHDSA están disponibles públicamente en https://github.com/microsoft/CompHRDoc.
English
Document structure analysis, aka document layout analysis, is crucial for understanding both the physical layout and logical structure of documents, serving information retrieval, document summarization, knowledge extraction, etc. Hierarchical Document Structure Analysis (HDSA) specifically aims to restore the hierarchical structure of documents created using authoring software with hierarchical schemas. Previous research has primarily followed two approaches: one focuses on tackling specific subtasks of HDSA in isolation, such as table detection or reading order prediction, while the other adopts a unified framework that uses multiple branches or modules, each designed to address a distinct task. In this work, we propose a unified relation prediction approach for HDSA, called UniHDSA, which treats various HDSA sub-tasks as relation prediction problems and consolidates relation prediction labels into a unified label space. This allows a single relation prediction module to handle multiple tasks simultaneously, whether at a page-level or document-level structure analysis. To validate the effectiveness of UniHDSA, we develop a multimodal end-to-end system based on Transformer architectures. Extensive experimental results demonstrate that our approach achieves state-of-the-art performance on a hierarchical document structure analysis benchmark, Comp-HRDoc, and competitive results on a large-scale document layout analysis dataset, DocLayNet, effectively illustrating the superiority of our method across all sub-tasks. The Comp-HRDoc benchmark and UniHDSA's configurations are publicly available at https://github.com/microsoft/CompHRDoc.

Summary

AI-Generated Summary

PDF22March 27, 2025