OmniLayout:LLMを用いた普遍的な文書レイアウト生成のための粗い粒度から細かい粒度への学習の実現
OmniLayout: Enabling Coarse-to-Fine Learning with LLMs for Universal Document Layout Generation
October 30, 2025
著者: Hengrui Kang, Zhuangcheng Gu, Zhiyuan Zhao, Zichen Wen, Bin Wang, Weijia Li, Conghui He
cs.AI
要旨
文書AIは急速に進歩し、ますます注目を集めている。しかし、これまでの研究の大半は文書レイアウト分析(DLA)に焦点が当てられており、その生成的な対極である文書レイアウト生成は未開拓のままである。主な障壁は、多様なレイアウトの不足にある。既存の研究はマンハッタン様式の構造を持つ学術論文が中心で、新聞や雑誌といった現実世界の多様な文書ジャンルは深刻なまでに過少表現されている。この格差を埋めるため、我々は初の100万規模の多様な文書レイアウトデータセットであるOmniLayout-1Mを構築した。これは6つの一般的な文書タイプを網羅し、複数のソースから収集された現代的なレイアウトで構成されている。さらに、既存手法は複雑な領域での対応が難しく、長いシーケンスを一貫して配置することに往々にして失敗するため、0.5BパラメータのOmniLayout-LLMを提案する。これは、設計された2段階のCoarse-to-Fine学習パラダイムを特徴とする:1) 大まかなカテゴリ定義を用いてOmniLayout-1Mから普遍的なレイアウト原理を学習し、2) その知識を細粒度のアノテーションが付与された特定領域に転移する。大規模な実験により、本手法がM^{6}Docデータセットにおける複数領域で強力な性能を発揮し、既存のレイアウト生成専門モデルやいくつかの最新汎用LLMを大幅に上回ることを実証した。コード、モデル、データセットは公開予定である。
English
Document AI has advanced rapidly and is attracting increasing attention. Yet,
while most efforts have focused on document layout analysis (DLA), its
generative counterpart, document layout generation, remains underexplored. A
major obstacle lies in the scarcity of diverse layouts: academic papers with
Manhattan-style structures dominate existing studies, while open-world genres
such as newspapers and magazines remain severely underrepresented. To address
this gap, we curate OmniLayout-1M, the first million-scale dataset of diverse
document layouts, covering six common document types and comprising
contemporary layouts collected from multiple sources. Moreover, since existing
methods struggle in complex domains and often fail to arrange long sequences
coherently, we introduce OmniLayout-LLM, a 0.5B model with designed two-stage
Coarse-to-Fine learning paradigm: 1) learning universal layout principles from
OmniLayout-1M with coarse category definitions, and 2) transferring the
knowledge to a specific domain with fine-grained annotations. Extensive
experiments demonstrate that our approach achieves strong performance on
multiple domains in M^{6}Doc dataset, substantially surpassing both existing
layout generation experts and several latest general-purpose LLMs. Our code,
models, and dataset will be publicly released.