ChatPaper.aiChatPaper

OmniLayout: Permitindo Aprendizado de Grosso a Fino com LLMs para Geração Universal de Layout de Documentos

OmniLayout: Enabling Coarse-to-Fine Learning with LLMs for Universal Document Layout Generation

October 30, 2025
Autores: Hengrui Kang, Zhuangcheng Gu, Zhiyuan Zhao, Zichen Wen, Bin Wang, Weijia Li, Conghui He
cs.AI

Resumo

A IA Documental avançou rapidamente e está a atrair atenção crescente. No entanto, enquanto a maioria dos esforços se concentrou na análise de layout de documentos (DLA), a sua contraparte generativa, a geração de layout de documentos, permanece pouco explorada. Um grande obstáculo reside na escassez de layouts diversificados: artigos académicos com estruturas de estilo Manhattan dominam os estudos existentes, enquanto géneros do mundo real, como jornais e revistas, permanecem severamente sub-representados. Para colmatar esta lacuna, reunimos o OmniLayout-1M, o primeiro conjunto de dados em escala milionária de layouts de documentos diversificados, abrangendo seis tipos de documentos comuns e compreendendo layouts contemporâneos recolhidos de múltiplas fontes. Além disso, uma vez que os métodos existentes lutam em domínios complexos e frequentemente falham em organizar sequências longas de forma coerente, introduzimos o OmniLayout-LLM, um modelo de 0.5B com um paradigma de aprendizagem em duas fases concebido de Coarse-to-Fine (do Grosso para o Fino): 1) aprender princípios universais de layout a partir do OmniLayout-1M com definições de categoria de alto nível, e 2) transferir o conhecimento para um domínio específico com anotações de granularidade fina. Experiências extensivas demonstram que a nossa abordagem atinge um desempenho forte em múltiplos domínios no conjunto de dados M⁶Doc, superando substancialmente tanto os especialistas existentes em geração de layout como vários LLMs de propósito geral mais recentes. O nosso código, modelos e conjunto de dados serão disponibilizados publicamente.
English
Document AI has advanced rapidly and is attracting increasing attention. Yet, while most efforts have focused on document layout analysis (DLA), its generative counterpart, document layout generation, remains underexplored. A major obstacle lies in the scarcity of diverse layouts: academic papers with Manhattan-style structures dominate existing studies, while open-world genres such as newspapers and magazines remain severely underrepresented. To address this gap, we curate OmniLayout-1M, the first million-scale dataset of diverse document layouts, covering six common document types and comprising contemporary layouts collected from multiple sources. Moreover, since existing methods struggle in complex domains and often fail to arrange long sequences coherently, we introduce OmniLayout-LLM, a 0.5B model with designed two-stage Coarse-to-Fine learning paradigm: 1) learning universal layout principles from OmniLayout-1M with coarse category definitions, and 2) transferring the knowledge to a specific domain with fine-grained annotations. Extensive experiments demonstrate that our approach achieves strong performance on multiple domains in M^{6}Doc dataset, substantially surpassing both existing layout generation experts and several latest general-purpose LLMs. Our code, models, and dataset will be publicly released.
PDF101February 8, 2026