ChatPaper.aiChatPaper

OmniLayout: Обеспечение обучения от общего к частному с помощью больших языковых моделей для универсального генерации макета документов

OmniLayout: Enabling Coarse-to-Fine Learning with LLMs for Universal Document Layout Generation

October 30, 2025
Авторы: Hengrui Kang, Zhuangcheng Gu, Zhiyuan Zhao, Zichen Wen, Bin Wang, Weijia Li, Conghui He
cs.AI

Аннотация

Технологии искусственного интеллекта для работы с документами быстро развиваются и привлекают всё больше внимания. Однако, хотя основные усилия были сосредоточены на анализе структуры документа (DLA), его генеративная составляющая — генерация макета документа — остаётся малоизученной. Основное препятствие заключается в недостатке разнообразных макетов: академические статьи с манхэттенской структурой доминируют в существующих исследованиях, в то время как макеты из открытого мира, такие как газеты и журналы, остаются серьёзно недопредставленными. Для устранения этого пробела мы создали OmniLayout-1M — первый миллионный набор данных разнообразных макетов документов, охватывающий шесть распространённых типов документов и включающий современные макеты, собранные из множества источников. Более того, поскольку существующие методы испытывают трудности в сложных областях и часто не могут согласованно расположить длинные последовательности, мы представляем OmniLayout-LLM — модель объёмом 0.5B параметров с разработанной двухэтапной парадигмой обучения «от грубого к точному»: 1) изучение универсальных принципов компоновки из OmniLayout-1M с грубыми категориальными определениями и 2) перенос полученных знаний в конкретную предметную область с детализированными аннотациями. Многочисленные эксперименты демонстрируют, что наш подход достигает высокой производительности в нескольких доменах набора данных M⁶Doc, существенно превосходя как существующие специализированные решения для генерации макетов, так и несколько новейших универсальных больших языковых моделей. Наш код, модели и набор данных будут публично доступны.
English
Document AI has advanced rapidly and is attracting increasing attention. Yet, while most efforts have focused on document layout analysis (DLA), its generative counterpart, document layout generation, remains underexplored. A major obstacle lies in the scarcity of diverse layouts: academic papers with Manhattan-style structures dominate existing studies, while open-world genres such as newspapers and magazines remain severely underrepresented. To address this gap, we curate OmniLayout-1M, the first million-scale dataset of diverse document layouts, covering six common document types and comprising contemporary layouts collected from multiple sources. Moreover, since existing methods struggle in complex domains and often fail to arrange long sequences coherently, we introduce OmniLayout-LLM, a 0.5B model with designed two-stage Coarse-to-Fine learning paradigm: 1) learning universal layout principles from OmniLayout-1M with coarse category definitions, and 2) transferring the knowledge to a specific domain with fine-grained annotations. Extensive experiments demonstrate that our approach achieves strong performance on multiple domains in M^{6}Doc dataset, substantially surpassing both existing layout generation experts and several latest general-purpose LLMs. Our code, models, and dataset will be publicly released.
PDF91December 2, 2025