ChatPaper.aiChatPaper

OmniLayout : Permettre un apprentissage du grossier au fin avec les LLM pour la génération universelle de mise en page de documents

OmniLayout: Enabling Coarse-to-Fine Learning with LLMs for Universal Document Layout Generation

October 30, 2025
papers.authors: Hengrui Kang, Zhuangcheng Gu, Zhiyuan Zhao, Zichen Wen, Bin Wang, Weijia Li, Conghui He
cs.AI

papers.abstract

L'IA documentaire a progressé rapidement et suscite une attention croissante. Cependant, alors que la plupart des efforts se sont concentrés sur l'analyse de la mise en page des documents (DLA), sa contrepartie générative, la génération de mise en page de documents, reste peu explorée. Un obstacle majeur réside dans la rareté des mises en page diversifiées : les articles académiques avec des structures de type Manhattan dominent les études existantes, tandis que les genres du monde réel tels que les journaux et magazines restent gravement sous-représentés. Pour combler cette lacune, nous constituons OmniLayout-1M, le premier jeu de données à l'échelle du million de mises en page de documents diversifiées, couvrant six types de documents courants et comprenant des mises en page contemporaines collectées auprès de multiples sources. De plus, puisque les méthodes existantes peinent dans les domaines complexes et échouent souvent à organiser de longues séquences de manière cohérente, nous introduisons OmniLayout-LLM, un modèle de 0,5B avec un paradigme d'apprentissage en deux étapes Grossier-vers-Fin conçu : 1) l'apprentissage des principes de mise en page universels à partir d'OmniLayout-1M avec des définitions de catégories grossières, et 2) le transfert des connaissances vers un domaine spécifique avec des annotations granulaires. Des expériences approfondies démontrent que notre approche obtient des performances solides sur plusieurs domaines du jeu de données M⁶Doc, surpassant substantiellement à la fois les experts existants en génération de mise en page et plusieurs LLM généralistes récents. Notre code, modèles et jeu de données seront rendus publics.
English
Document AI has advanced rapidly and is attracting increasing attention. Yet, while most efforts have focused on document layout analysis (DLA), its generative counterpart, document layout generation, remains underexplored. A major obstacle lies in the scarcity of diverse layouts: academic papers with Manhattan-style structures dominate existing studies, while open-world genres such as newspapers and magazines remain severely underrepresented. To address this gap, we curate OmniLayout-1M, the first million-scale dataset of diverse document layouts, covering six common document types and comprising contemporary layouts collected from multiple sources. Moreover, since existing methods struggle in complex domains and often fail to arrange long sequences coherently, we introduce OmniLayout-LLM, a 0.5B model with designed two-stage Coarse-to-Fine learning paradigm: 1) learning universal layout principles from OmniLayout-1M with coarse category definitions, and 2) transferring the knowledge to a specific domain with fine-grained annotations. Extensive experiments demonstrate that our approach achieves strong performance on multiple domains in M^{6}Doc dataset, substantially surpassing both existing layout generation experts and several latest general-purpose LLMs. Our code, models, and dataset will be publicly released.
PDF91December 2, 2025