ChatPaper.aiChatPaper

OmniLayout: Het mogelijk maken van grof-naar-fijn leren met LLM's voor universele documentlay-outgeneratie

OmniLayout: Enabling Coarse-to-Fine Learning with LLMs for Universal Document Layout Generation

October 30, 2025
Auteurs: Hengrui Kang, Zhuangcheng Gu, Zhiyuan Zhao, Zichen Wen, Bin Wang, Weijia Li, Conghui He
cs.AI

Samenvatting

Document AI heeft een snelle ontwikkeling doorgemaakt en trekt steeds meer aandacht. Desondanks richten de meeste inspanningen zich op documentlay-outanalyse (DLA), terwijl de generatieve tegenhanger, het genereren van documentlay-outs, onderbelicht blijft. Een grote belemmering is de schaarste aan diverse lay-outs: academische artikelen met Manhattan-stijl structuren domineren bestaande studies, terwijl open-wereldgenres zoals kranten en tijdschriften ernstig ondervertegenwoordigd zijn. Om deze kloof te dichten, hebben we OmniLayout-1M samengesteld, de eerste miljoenenschalige dataset met diverse documentlay-outs, die zes veelvoorkomende documenttypen bestrijkt en hedendaagse lay-outs omvat die uit meerdere bronnen zijn verzameld. Bovendien, aangezien bestaande methoden moeite hebben met complexe domeinen en vaak falen in het coherent ordenen van lange sequenties, introduceren we OmniLayout-LLM, een 0.5B-model met een ontworpen tweefasen Coarse-to-Fine leerparadigma: 1) het leren van universele lay-outprincipes van OmniLayout-1M met grove categorie-definities, en 2) het overdragen van deze kennis naar een specifiek domein met fijnmazige annotaties. Uitgebreide experimenten tonen aan dat onze aanpak sterke prestaties levert in meerdere domeinen van de M⁶Doc-dataset, en daarbij zowel bestaande lay-outgeneratie-experts als verschillende recente algemene LLM's aanzienlijk overtreft. Onze code, modellen en dataset zullen openbaar worden vrijgegeven.
English
Document AI has advanced rapidly and is attracting increasing attention. Yet, while most efforts have focused on document layout analysis (DLA), its generative counterpart, document layout generation, remains underexplored. A major obstacle lies in the scarcity of diverse layouts: academic papers with Manhattan-style structures dominate existing studies, while open-world genres such as newspapers and magazines remain severely underrepresented. To address this gap, we curate OmniLayout-1M, the first million-scale dataset of diverse document layouts, covering six common document types and comprising contemporary layouts collected from multiple sources. Moreover, since existing methods struggle in complex domains and often fail to arrange long sequences coherently, we introduce OmniLayout-LLM, a 0.5B model with designed two-stage Coarse-to-Fine learning paradigm: 1) learning universal layout principles from OmniLayout-1M with coarse category definitions, and 2) transferring the knowledge to a specific domain with fine-grained annotations. Extensive experiments demonstrate that our approach achieves strong performance on multiple domains in M^{6}Doc dataset, substantially surpassing both existing layout generation experts and several latest general-purpose LLMs. Our code, models, and dataset will be publicly released.
PDF91December 2, 2025