UniHDSA: 계층적 문서 구조 분석을 위한 통합 관계 예측 접근법
UniHDSA: A Unified Relation Prediction Approach for Hierarchical Document Structure Analysis
March 20, 2025
저자: Jiawei Wang, Kai Hu, Qiang Huo
cs.AI
초록
문서 구조 분석, 즉 문서 레이아웃 분석은 문서의 물리적 배치와 논리적 구조를 이해하는 데 필수적이며, 정보 검색, 문서 요약, 지식 추출 등에 활용됩니다. 계층적 문서 구조 분석(HDSA)은 특히 계층적 스키마를 사용한 저작 소프트웨어로 생성된 문서의 계층적 구조를 복원하는 것을 목표로 합니다. 기존 연구는 주로 두 가지 접근 방식을 따랐습니다: 하나는 테이블 감지 또는 읽기 순서 예측과 같은 HDSA의 특정 하위 작업을 개별적으로 해결하는 데 초점을 맞추는 반면, 다른 하나는 각각 별도의 작업을 처리하도록 설계된 다중 브랜치 또는 모듈을 사용하는 통합 프레임워크를 채택합니다. 본 연구에서는 UniHDSA라는 HDSA를 위한 통합 관계 예측 접근 방식을 제안합니다. 이 접근 방식은 다양한 HDSA 하위 작업을 관계 예측 문제로 취급하고 관계 예측 레이블을 통합된 레이블 공간으로 통합합니다. 이를 통해 단일 관계 예측 모듈이 페이지 수준 또는 문서 수준 구조 분석에서 여러 작업을 동시에 처리할 수 있습니다. UniHDSA의 효과를 검증하기 위해 Transformer 아키텍처를 기반으로 한 멀티모달 엔드투엔드 시스템을 개발했습니다. 광범위한 실험 결과는 우리의 접근 방식이 계층적 문서 구조 분석 벤치마크인 Comp-HRDoc에서 최첨단 성능을 달성하고, 대규모 문서 레이아웃 분석 데이터셋인 DocLayNet에서도 경쟁력 있는 결과를 보여주며, 모든 하위 작업에서 우리 방법의 우수성을 효과적으로 입증합니다. Comp-HRDoc 벤치마크와 UniHDSA의 구성은 https://github.com/microsoft/CompHRDoc에서 공개적으로 제공됩니다.
English
Document structure analysis, aka document layout analysis, is crucial for
understanding both the physical layout and logical structure of documents,
serving information retrieval, document summarization, knowledge extraction,
etc. Hierarchical Document Structure Analysis (HDSA) specifically aims to
restore the hierarchical structure of documents created using authoring
software with hierarchical schemas. Previous research has primarily followed
two approaches: one focuses on tackling specific subtasks of HDSA in isolation,
such as table detection or reading order prediction, while the other adopts a
unified framework that uses multiple branches or modules, each designed to
address a distinct task. In this work, we propose a unified relation prediction
approach for HDSA, called UniHDSA, which treats various HDSA sub-tasks as
relation prediction problems and consolidates relation prediction labels into a
unified label space. This allows a single relation prediction module to handle
multiple tasks simultaneously, whether at a page-level or document-level
structure analysis. To validate the effectiveness of UniHDSA, we develop a
multimodal end-to-end system based on Transformer architectures. Extensive
experimental results demonstrate that our approach achieves state-of-the-art
performance on a hierarchical document structure analysis benchmark,
Comp-HRDoc, and competitive results on a large-scale document layout analysis
dataset, DocLayNet, effectively illustrating the superiority of our method
across all sub-tasks. The Comp-HRDoc benchmark and UniHDSA's configurations are
publicly available at https://github.com/microsoft/CompHRDoc.Summary
AI-Generated Summary