OmniLayout: 범용 문서 레이아웃 생성을 위한 LLM 기반 Coarse-to-Fine 학습 기법
OmniLayout: Enabling Coarse-to-Fine Learning with LLMs for Universal Document Layout Generation
October 30, 2025
저자: Hengrui Kang, Zhuangcheng Gu, Zhiyuan Zhao, Zichen Wen, Bin Wang, Weijia Li, Conghui He
cs.AI
초록
문서 AI는 빠르게 발전하며 점차 더 많은 관심을 끌고 있습니다. 그러나 대부분의 연구가 문서 레이아웃 분석(DLA)에 집중된 반면, 그 생성적 상대역인 문서 레이아웃 생성은 아직 충분히 탐구되지 않고 있습니다. 주요 장애물은 다양한 레이아웃의 부족에 있습니다: 맨해튼 스타일 구조를 가진 학술 논문이 기존 연구를 지배하는 반면, 신문이나 잡지와 같은 현실 세계의 다양한 장르는 심각하게 저조하게 표현되고 있습니다. 이러한 격차를 해소하기 위해 우리는 6가지 일반적인 문서 유형을 포함하며 여러 출처에서 수집된 현대적인 레이아웃으로 구성된, 최초의 백만 규모 다양한 문서 레이아웃 데이터셋인 OmniLayout-1M을 구축했습니다. 더욱이 기존 방법론들이 복잡한 영역에서 어려움을 겪고 긴 시퀀스를 일관성 있게 배열하는 데 자주 실패하기 때문에, 우리는 0.5B 규모의 OmniLayout-LLM 모델을 소개합니다. 이 모델은 설계된 2단계 Coarse-to-Fine 학습 패러다임을 갖추고 있습니다: 1) 대략적인 범주 정의를 통해 OmniLayout-1M에서 보편적인 레이아웃 원리를 학습하고, 2) 세분화된 주석이 달린 특정 도메인으로 해당 지식을 전이합니다. 광범위한 실험을 통해 우리의 접근 방식이 M^{6}Doc 데이터셋의 여러 도메인에서 강력한 성능을 달성하며, 기존 레이아웃 생성 전문 모델들과 여러 최신 범용 LLM들을 크게 능가함을 입증했습니다. 우리의 코드, 모델, 데이터셋은 공개될 예정입니다.
English
Document AI has advanced rapidly and is attracting increasing attention. Yet,
while most efforts have focused on document layout analysis (DLA), its
generative counterpart, document layout generation, remains underexplored. A
major obstacle lies in the scarcity of diverse layouts: academic papers with
Manhattan-style structures dominate existing studies, while open-world genres
such as newspapers and magazines remain severely underrepresented. To address
this gap, we curate OmniLayout-1M, the first million-scale dataset of diverse
document layouts, covering six common document types and comprising
contemporary layouts collected from multiple sources. Moreover, since existing
methods struggle in complex domains and often fail to arrange long sequences
coherently, we introduce OmniLayout-LLM, a 0.5B model with designed two-stage
Coarse-to-Fine learning paradigm: 1) learning universal layout principles from
OmniLayout-1M with coarse category definitions, and 2) transferring the
knowledge to a specific domain with fine-grained annotations. Extensive
experiments demonstrate that our approach achieves strong performance on
multiple domains in M^{6}Doc dataset, substantially surpassing both existing
layout generation experts and several latest general-purpose LLMs. Our code,
models, and dataset will be publicly released.