OmniLayout: Abilitare l'apprendimento da grossolano a fine con LLM per la generazione universale del layout di documenti
OmniLayout: Enabling Coarse-to-Fine Learning with LLMs for Universal Document Layout Generation
October 30, 2025
Autori: Hengrui Kang, Zhuangcheng Gu, Zhiyuan Zhao, Zichen Wen, Bin Wang, Weijia Li, Conghui He
cs.AI
Abstract
L'IA documentale ha compiuto rapidi progressi e sta attirando un'attenzione crescente. Tuttavia, mentre la maggior parte degli sforzi si è concentrata sull'analisi del layout dei documenti (DLA), la sua controparte generativa, la generazione del layout dei documenti, rimane poco esplorata. Un ostacolo principale risiede nella scarsità di layout diversificati: gli articoli accademici con strutture di tipo Manhattan dominano gli studi esistenti, mentre generi del mondo reale come giornali e riviste rimangono gravemente sottorappresentati. Per colmare questa lacuna, abbiamo curato OmniLayout-1M, il primo dataset su larga scala (un milione di esempi) di layout documentali diversificati, che copre sei tipi comuni di documento e comprende layout contemporanei raccolti da molteplici fonti. Inoltre, poiché i metodi esistenti faticano in domini complessi e spesso non riescono a disporre sequenze lunghe in modo coerente, introduciamo OmniLayout-LLM, un modello da 0.5B con un paradigma di apprendimento a due stadi progettato su principio Coarse-to-Fine: 1) apprendere principi di layout universali da OmniLayout-1M con definizioni di categoria grossolane, e 2) trasferire la conoscenza a un dominio specifico con annotazioni granulari. Esperimenti estensivi dimostrano che il nostro approccio raggiunge prestazioni robuste su molteplici domini nel dataset M⁶Doc, superando sostanzialmente sia gli esistenti esperti di generazione di layout che diversi recenti LLM generici. Il nostro codice, modelli e dataset saranno rilasciati pubblicamente.
English
Document AI has advanced rapidly and is attracting increasing attention. Yet,
while most efforts have focused on document layout analysis (DLA), its
generative counterpart, document layout generation, remains underexplored. A
major obstacle lies in the scarcity of diverse layouts: academic papers with
Manhattan-style structures dominate existing studies, while open-world genres
such as newspapers and magazines remain severely underrepresented. To address
this gap, we curate OmniLayout-1M, the first million-scale dataset of diverse
document layouts, covering six common document types and comprising
contemporary layouts collected from multiple sources. Moreover, since existing
methods struggle in complex domains and often fail to arrange long sequences
coherently, we introduce OmniLayout-LLM, a 0.5B model with designed two-stage
Coarse-to-Fine learning paradigm: 1) learning universal layout principles from
OmniLayout-1M with coarse category definitions, and 2) transferring the
knowledge to a specific domain with fine-grained annotations. Extensive
experiments demonstrate that our approach achieves strong performance on
multiple domains in M^{6}Doc dataset, substantially surpassing both existing
layout generation experts and several latest general-purpose LLMs. Our code,
models, and dataset will be publicly released.