ChatPaper.aiChatPaper

UniHDSA : Une approche unifiée de prédiction de relations pour l'analyse hiérarchique de la structure des documents

UniHDSA: A Unified Relation Prediction Approach for Hierarchical Document Structure Analysis

March 20, 2025
Auteurs: Jiawei Wang, Kai Hu, Qiang Huo
cs.AI

Résumé

L'analyse de la structure des documents, également appelée analyse de la mise en page des documents, est essentielle pour comprendre à la fois la disposition physique et la structure logique des documents, servant des applications telles que la recherche d'information, le résumé de documents, l'extraction de connaissances, etc. L'analyse hiérarchique de la structure des documents (HDSA) vise spécifiquement à restaurer la structure hiérarchique des documents créés à l'aide de logiciels de création utilisant des schémas hiérarchiques. Les recherches précédentes ont principalement suivi deux approches : l'une se concentre sur la résolution de sous-tâches spécifiques de la HDSA de manière isolée, comme la détection de tableaux ou la prédiction de l'ordre de lecture, tandis que l'autre adopte un cadre unifié utilisant plusieurs branches ou modules, chacun conçu pour traiter une tâche distincte. Dans ce travail, nous proposons une approche unifiée de prédiction de relations pour la HDSA, appelée UniHDSA, qui traite diverses sous-tâches de la HDSA comme des problèmes de prédiction de relations et consolide les étiquettes de prédiction de relations dans un espace d'étiquettes unifié. Cela permet à un seul module de prédiction de relations de gérer plusieurs tâches simultanément, que ce soit au niveau de l'analyse de la structure d'une page ou d'un document. Pour valider l'efficacité de UniHDSA, nous développons un système multimodal de bout en bout basé sur des architectures Transformer. Les résultats expérimentaux approfondis démontrent que notre approche atteint des performances de pointe sur un benchmark d'analyse hiérarchique de la structure des documents, Comp-HRDoc, et des résultats compétitifs sur un ensemble de données à grande échelle d'analyse de la mise en page des documents, DocLayNet, illustrant efficacement la supériorité de notre méthode sur toutes les sous-tâches. Le benchmark Comp-HRDoc et les configurations de UniHDSA sont disponibles publiquement à l'adresse https://github.com/microsoft/CompHRDoc.
English
Document structure analysis, aka document layout analysis, is crucial for understanding both the physical layout and logical structure of documents, serving information retrieval, document summarization, knowledge extraction, etc. Hierarchical Document Structure Analysis (HDSA) specifically aims to restore the hierarchical structure of documents created using authoring software with hierarchical schemas. Previous research has primarily followed two approaches: one focuses on tackling specific subtasks of HDSA in isolation, such as table detection or reading order prediction, while the other adopts a unified framework that uses multiple branches or modules, each designed to address a distinct task. In this work, we propose a unified relation prediction approach for HDSA, called UniHDSA, which treats various HDSA sub-tasks as relation prediction problems and consolidates relation prediction labels into a unified label space. This allows a single relation prediction module to handle multiple tasks simultaneously, whether at a page-level or document-level structure analysis. To validate the effectiveness of UniHDSA, we develop a multimodal end-to-end system based on Transformer architectures. Extensive experimental results demonstrate that our approach achieves state-of-the-art performance on a hierarchical document structure analysis benchmark, Comp-HRDoc, and competitive results on a large-scale document layout analysis dataset, DocLayNet, effectively illustrating the superiority of our method across all sub-tasks. The Comp-HRDoc benchmark and UniHDSA's configurations are publicly available at https://github.com/microsoft/CompHRDoc.

Summary

AI-Generated Summary

PDF22March 27, 2025