UniHDSA : Une approche unifiée de prédiction de relations pour l'analyse hiérarchique de la structure des documents
UniHDSA: A Unified Relation Prediction Approach for Hierarchical Document Structure Analysis
March 20, 2025
Auteurs: Jiawei Wang, Kai Hu, Qiang Huo
cs.AI
Résumé
L'analyse de la structure des documents, également appelée analyse de la mise en page des documents, est essentielle pour comprendre à la fois la disposition physique et la structure logique des documents, servant des applications telles que la recherche d'information, le résumé de documents, l'extraction de connaissances, etc. L'analyse hiérarchique de la structure des documents (HDSA) vise spécifiquement à restaurer la structure hiérarchique des documents créés à l'aide de logiciels de création utilisant des schémas hiérarchiques. Les recherches précédentes ont principalement suivi deux approches : l'une se concentre sur la résolution de sous-tâches spécifiques de la HDSA de manière isolée, comme la détection de tableaux ou la prédiction de l'ordre de lecture, tandis que l'autre adopte un cadre unifié utilisant plusieurs branches ou modules, chacun conçu pour traiter une tâche distincte. Dans ce travail, nous proposons une approche unifiée de prédiction de relations pour la HDSA, appelée UniHDSA, qui traite diverses sous-tâches de la HDSA comme des problèmes de prédiction de relations et consolide les étiquettes de prédiction de relations dans un espace d'étiquettes unifié. Cela permet à un seul module de prédiction de relations de gérer plusieurs tâches simultanément, que ce soit au niveau de l'analyse de la structure d'une page ou d'un document. Pour valider l'efficacité de UniHDSA, nous développons un système multimodal de bout en bout basé sur des architectures Transformer. Les résultats expérimentaux approfondis démontrent que notre approche atteint des performances de pointe sur un benchmark d'analyse hiérarchique de la structure des documents, Comp-HRDoc, et des résultats compétitifs sur un ensemble de données à grande échelle d'analyse de la mise en page des documents, DocLayNet, illustrant efficacement la supériorité de notre méthode sur toutes les sous-tâches. Le benchmark Comp-HRDoc et les configurations de UniHDSA sont disponibles publiquement à l'adresse https://github.com/microsoft/CompHRDoc.
English
Document structure analysis, aka document layout analysis, is crucial for
understanding both the physical layout and logical structure of documents,
serving information retrieval, document summarization, knowledge extraction,
etc. Hierarchical Document Structure Analysis (HDSA) specifically aims to
restore the hierarchical structure of documents created using authoring
software with hierarchical schemas. Previous research has primarily followed
two approaches: one focuses on tackling specific subtasks of HDSA in isolation,
such as table detection or reading order prediction, while the other adopts a
unified framework that uses multiple branches or modules, each designed to
address a distinct task. In this work, we propose a unified relation prediction
approach for HDSA, called UniHDSA, which treats various HDSA sub-tasks as
relation prediction problems and consolidates relation prediction labels into a
unified label space. This allows a single relation prediction module to handle
multiple tasks simultaneously, whether at a page-level or document-level
structure analysis. To validate the effectiveness of UniHDSA, we develop a
multimodal end-to-end system based on Transformer architectures. Extensive
experimental results demonstrate that our approach achieves state-of-the-art
performance on a hierarchical document structure analysis benchmark,
Comp-HRDoc, and competitive results on a large-scale document layout analysis
dataset, DocLayNet, effectively illustrating the superiority of our method
across all sub-tasks. The Comp-HRDoc benchmark and UniHDSA's configurations are
publicly available at https://github.com/microsoft/CompHRDoc.Summary
AI-Generated Summary