UniHDSA:階層的文書構造解析のための統一関係予測アプローチ
UniHDSA: A Unified Relation Prediction Approach for Hierarchical Document Structure Analysis
March 20, 2025
著者: Jiawei Wang, Kai Hu, Qiang Huo
cs.AI
要旨
ドキュメント構造分析、別名ドキュメントレイアウト分析は、ドキュメントの物理的レイアウトと論理的構造を理解する上で重要であり、情報検索、ドキュメント要約、知識抽出などに役立ちます。階層的ドキュメント構造分析(HDSA)は特に、階層的なスキーマを使用したオーサリングソフトウェアで作成されたドキュメントの階層構造を復元することを目的としています。これまでの研究では、主に2つのアプローチが取られてきました。1つは、表検出や読み順序予測など、HDSAの特定のサブタスクを個別に取り組むことに焦点を当てたもので、もう1つは、複数のブランチやモジュールを使用し、それぞれが異なるタスクに対応する統一フレームワークを採用するものです。本研究では、HDSAのための統一的な関係予測アプローチであるUniHDSAを提案します。UniHDSAは、さまざまなHDSAサブタスクを関係予測問題として扱い、関係予測ラベルを統一ラベル空間に統合します。これにより、単一の関係予測モジュールが、ページレベルまたはドキュメントレベルの構造分析において、複数のタスクを同時に処理できるようになります。UniHDSAの有効性を検証するために、Transformerアーキテクチャに基づくマルチモーダルなエンドツーエンドシステムを開発しました。広範な実験結果は、我々のアプローチが階層的ドキュメント構造分析のベンチマークであるComp-HRDocで最先端の性能を達成し、大規模なドキュメントレイアウト分析データセットであるDocLayNetでも競争力のある結果を示し、すべてのサブタスクにおいて我々の手法の優位性を効果的に示しています。Comp-HRDocベンチマークとUniHDSAの設定は、https://github.com/microsoft/CompHRDoc で公開されています。
English
Document structure analysis, aka document layout analysis, is crucial for
understanding both the physical layout and logical structure of documents,
serving information retrieval, document summarization, knowledge extraction,
etc. Hierarchical Document Structure Analysis (HDSA) specifically aims to
restore the hierarchical structure of documents created using authoring
software with hierarchical schemas. Previous research has primarily followed
two approaches: one focuses on tackling specific subtasks of HDSA in isolation,
such as table detection or reading order prediction, while the other adopts a
unified framework that uses multiple branches or modules, each designed to
address a distinct task. In this work, we propose a unified relation prediction
approach for HDSA, called UniHDSA, which treats various HDSA sub-tasks as
relation prediction problems and consolidates relation prediction labels into a
unified label space. This allows a single relation prediction module to handle
multiple tasks simultaneously, whether at a page-level or document-level
structure analysis. To validate the effectiveness of UniHDSA, we develop a
multimodal end-to-end system based on Transformer architectures. Extensive
experimental results demonstrate that our approach achieves state-of-the-art
performance on a hierarchical document structure analysis benchmark,
Comp-HRDoc, and competitive results on a large-scale document layout analysis
dataset, DocLayNet, effectively illustrating the superiority of our method
across all sub-tasks. The Comp-HRDoc benchmark and UniHDSA's configurations are
publicly available at https://github.com/microsoft/CompHRDoc.Summary
AI-Generated Summary