OmniLayout: Ermöglichung von Grob-zu-Fein-Lernen mit LLMs für universelle Dokumentenlayout-Generierung
OmniLayout: Enabling Coarse-to-Fine Learning with LLMs for Universal Document Layout Generation
October 30, 2025
papers.authors: Hengrui Kang, Zhuangcheng Gu, Zhiyuan Zhao, Zichen Wen, Bin Wang, Weijia Li, Conghui He
cs.AI
papers.abstract
Die Dokumenten-KI hat sich rasant weiterentwickelt und zieht zunehmend Aufmerksamkeit auf sich. Während sich die meisten Bemühungen jedoch auf die Dokumentenlayoutanalyse (DLA) konzentriert haben, bleibt ihr generatives Pendant, die Dokumentenlayoutgenerierung, weitgehend unerforscht. Ein Haupthindernis liegt in der Knappheit vielfältiger Layouts: Wissenschaftliche Arbeiten mit Manhattan-artigen Strukturen dominieren bestehende Studien, während offenere Genres wie Zeitungen und Zeitschriften stark unterrepräsentiert sind. Um diese Lücke zu schließen, haben wir OmniLayout-1M zusammengestellt, den ersten millionenschweren Datensatz vielfältiger Dokumentenlayouts, der sechs gängige Dokumenttypen abdeckt und zeitgenössische Layouts aus mehreren Quellen umfasst. Da bestehende Methoden in komplexen Domänen Schwierigkeiten haben und oft lange Sequenzen nicht kohärent anordnen können, führen wir zudem OmniLayout-LLM ein, ein 0,5B-Modell mit einem speziell entwickelten zweistufigen Coarse-to-Fine-Lernparadigma: 1) Erlernen universeller Layoutprinzipien aus OmniLayout-1M mit groben Kategoriedefinitionen und 2) Transfer des Wissens auf eine spezifische Domäne mit feinkörnigen Annotationen. Umfangreiche Experimente belegen, dass unser Ansatz in mehreren Domänen des M^{6}Doc-Datensatzes eine hohe Leistung erzielt und sowohl bestehende Layoutgenerierungsexperten als auch mehrere neuere allgemeine LLMs deutlich übertrifft. Unser Code, unsere Modelle und unser Datensatz werden öffentlich zugänglich gemacht.
English
Document AI has advanced rapidly and is attracting increasing attention. Yet,
while most efforts have focused on document layout analysis (DLA), its
generative counterpart, document layout generation, remains underexplored. A
major obstacle lies in the scarcity of diverse layouts: academic papers with
Manhattan-style structures dominate existing studies, while open-world genres
such as newspapers and magazines remain severely underrepresented. To address
this gap, we curate OmniLayout-1M, the first million-scale dataset of diverse
document layouts, covering six common document types and comprising
contemporary layouts collected from multiple sources. Moreover, since existing
methods struggle in complex domains and often fail to arrange long sequences
coherently, we introduce OmniLayout-LLM, a 0.5B model with designed two-stage
Coarse-to-Fine learning paradigm: 1) learning universal layout principles from
OmniLayout-1M with coarse category definitions, and 2) transferring the
knowledge to a specific domain with fine-grained annotations. Extensive
experiments demonstrate that our approach achieves strong performance on
multiple domains in M^{6}Doc dataset, substantially surpassing both existing
layout generation experts and several latest general-purpose LLMs. Our code,
models, and dataset will be publicly released.