ChatPaper.aiChatPaper

OmniLayout: Habilitando el Aprendizaje de Grueso a Fino con LLMs para la Generación Universal de Diseño de Documentos

OmniLayout: Enabling Coarse-to-Fine Learning with LLMs for Universal Document Layout Generation

October 30, 2025
Autores: Hengrui Kang, Zhuangcheng Gu, Zhiyuan Zhao, Zichen Wen, Bin Wang, Weijia Li, Conghui He
cs.AI

Resumen

La IA documental ha avanzado rápidamente y está atrayendo una atención creciente. Sin embargo, aunque la mayoría de los esfuerzos se han centrado en el análisis de diseño de documentos (DLA), su contraparte generativa, la generación de diseño de documentos, sigue estando poco explorada. Un obstáculo principal reside en la escasez de diseños diversos: los artículos académicos con estructuras de estilo Manhattan dominan los estudios existentes, mientras que géneros del mundo real como periódicos y revistas permanecen severamente subrepresentados. Para abordar esta brecha, hemos creado OmniLayout-1M, el primer conjunto de datos a escala millonaria de diseños de documentos diversos, que cubre seis tipos de documentos comunes y comprende diseños contemporáneos recopilados de múltiples fuentes. Además, dado que los métodos existentes luchan en dominios complejos y a menudo fallan en organizar secuencias largas de manera coherente, presentamos OmniLayout-LLM, un modelo de 0.5B con un paradigma de aprendizaje diseñado en dos etapas de Coarse-to-Fine: 1) aprender principios de diseño universales de OmniLayout-1M con definiciones de categorías generales, y 2) transferir el conocimiento a un dominio específico con anotaciones detalladas. Experimentos exhaustivos demuestran que nuestro enfoque logra un rendimiento sólido en múltiples dominios del conjunto de datos M⁶Doc, superando sustancialmente tanto a los expertos existentes en generación de diseños como a varios LLMs de propósito general más recientes. Nuestro código, modelos y conjunto de datos serán publicados abiertamente.
English
Document AI has advanced rapidly and is attracting increasing attention. Yet, while most efforts have focused on document layout analysis (DLA), its generative counterpart, document layout generation, remains underexplored. A major obstacle lies in the scarcity of diverse layouts: academic papers with Manhattan-style structures dominate existing studies, while open-world genres such as newspapers and magazines remain severely underrepresented. To address this gap, we curate OmniLayout-1M, the first million-scale dataset of diverse document layouts, covering six common document types and comprising contemporary layouts collected from multiple sources. Moreover, since existing methods struggle in complex domains and often fail to arrange long sequences coherently, we introduce OmniLayout-LLM, a 0.5B model with designed two-stage Coarse-to-Fine learning paradigm: 1) learning universal layout principles from OmniLayout-1M with coarse category definitions, and 2) transferring the knowledge to a specific domain with fine-grained annotations. Extensive experiments demonstrate that our approach achieves strong performance on multiple domains in M^{6}Doc dataset, substantially surpassing both existing layout generation experts and several latest general-purpose LLMs. Our code, models, and dataset will be publicly released.
PDF91December 2, 2025