ChatPaper.aiChatPaper

LayoutNUWA: Het Verborgen Lay-out Expertise van Grote Taalmodellen Onthullen

LayoutNUWA: Revealing the Hidden Layout Expertise of Large Language Models

September 18, 2023
Auteurs: Zecheng Tang, Chenfei Wu, Juntao Li, Nan Duan
cs.AI

Samenvatting

Grafische lay-outgeneratie, een groeiend onderzoeksveld, speelt een belangrijke rol in gebruikersbetrokkenheid en informatieperceptie. Bestaande methoden behandelen lay-outgeneratie voornamelijk als een numerieke optimalisatietaak, waarbij ze zich richten op kwantitatieve aspecten en de semantische informatie van de lay-out over het hoofd zien, zoals de relatie tussen elk lay-outelement. In dit artikel stellen we LayoutNUWA voor, het eerste model dat lay-outgeneratie behandelt als een codegeneratietaak om de semantische informatie te versterken en de verborgen lay-outexpertise van grote taalmodellen (LLMs) te benutten. Concreet ontwikkelen we een Code Instruct Tuning (CIT)-aanpak die bestaat uit drie onderling verbonden modules: 1) de Code Initialization (CI)-module kwantificeert de numerieke voorwaarden en initialiseert deze als HTML-code met strategisch geplaatste maskers; 2) de Code Completion (CC)-module maakt gebruik van de opmaakkennis van LLMs om de gemaskeerde delen in de HTML-code in te vullen; 3) de Code Rendering (CR)-module transformeert de voltooide code naar de uiteindelijke lay-outoutput, wat zorgt voor een zeer interpreteerbaar en transparant lay-outgeneratieproces dat code direct naar een gevisualiseerde lay-out vertaalt. We behalen aanzienlijke state-of-the-art prestaties (zelfs meer dan 50\% verbeteringen) op meerdere datasets, wat de sterke capaciteiten van LayoutNUWA aantoont. Onze code is beschikbaar op https://github.com/ProjectNUWA/LayoutNUWA.
English
Graphic layout generation, a growing research field, plays a significant role in user engagement and information perception. Existing methods primarily treat layout generation as a numerical optimization task, focusing on quantitative aspects while overlooking the semantic information of layout, such as the relationship between each layout element. In this paper, we propose LayoutNUWA, the first model that treats layout generation as a code generation task to enhance semantic information and harness the hidden layout expertise of large language models~(LLMs). More concretely, we develop a Code Instruct Tuning (CIT) approach comprising three interconnected modules: 1) the Code Initialization (CI) module quantifies the numerical conditions and initializes them as HTML code with strategically placed masks; 2) the Code Completion (CC) module employs the formatting knowledge of LLMs to fill in the masked portions within the HTML code; 3) the Code Rendering (CR) module transforms the completed code into the final layout output, ensuring a highly interpretable and transparent layout generation procedure that directly maps code to a visualized layout. We attain significant state-of-the-art performance (even over 50\% improvements) on multiple datasets, showcasing the strong capabilities of LayoutNUWA. Our code is available at https://github.com/ProjectNUWA/LayoutNUWA.
PDF141February 8, 2026