LayoutNUWA: Het Verborgen Lay-out Expertise van Grote Taalmodellen Onthullen
LayoutNUWA: Revealing the Hidden Layout Expertise of Large Language Models
September 18, 2023
Auteurs: Zecheng Tang, Chenfei Wu, Juntao Li, Nan Duan
cs.AI
Samenvatting
Grafische lay-outgeneratie, een groeiend onderzoeksveld, speelt een belangrijke rol in gebruikersbetrokkenheid en informatieperceptie. Bestaande methoden behandelen lay-outgeneratie voornamelijk als een numerieke optimalisatietaak, waarbij ze zich richten op kwantitatieve aspecten en de semantische informatie van de lay-out over het hoofd zien, zoals de relatie tussen elk lay-outelement. In dit artikel stellen we LayoutNUWA voor, het eerste model dat lay-outgeneratie behandelt als een codegeneratietaak om de semantische informatie te versterken en de verborgen lay-outexpertise van grote taalmodellen (LLMs) te benutten. Concreet ontwikkelen we een Code Instruct Tuning (CIT)-aanpak die bestaat uit drie onderling verbonden modules: 1) de Code Initialization (CI)-module kwantificeert de numerieke voorwaarden en initialiseert deze als HTML-code met strategisch geplaatste maskers; 2) de Code Completion (CC)-module maakt gebruik van de opmaakkennis van LLMs om de gemaskeerde delen in de HTML-code in te vullen; 3) de Code Rendering (CR)-module transformeert de voltooide code naar de uiteindelijke lay-outoutput, wat zorgt voor een zeer interpreteerbaar en transparant lay-outgeneratieproces dat code direct naar een gevisualiseerde lay-out vertaalt. We behalen aanzienlijke state-of-the-art prestaties (zelfs meer dan 50\% verbeteringen) op meerdere datasets, wat de sterke capaciteiten van LayoutNUWA aantoont. Onze code is beschikbaar op https://github.com/ProjectNUWA/LayoutNUWA.
English
Graphic layout generation, a growing research field, plays a significant role
in user engagement and information perception. Existing methods primarily treat
layout generation as a numerical optimization task, focusing on quantitative
aspects while overlooking the semantic information of layout, such as the
relationship between each layout element. In this paper, we propose LayoutNUWA,
the first model that treats layout generation as a code generation task to
enhance semantic information and harness the hidden layout expertise of large
language models~(LLMs). More concretely, we develop a Code Instruct Tuning
(CIT) approach comprising three interconnected modules: 1) the Code
Initialization (CI) module quantifies the numerical conditions and initializes
them as HTML code with strategically placed masks; 2) the Code Completion (CC)
module employs the formatting knowledge of LLMs to fill in the masked portions
within the HTML code; 3) the Code Rendering (CR) module transforms the
completed code into the final layout output, ensuring a highly interpretable
and transparent layout generation procedure that directly maps code to a
visualized layout. We attain significant state-of-the-art performance (even
over 50\% improvements) on multiple datasets, showcasing the strong
capabilities of LayoutNUWA. Our code is available at
https://github.com/ProjectNUWA/LayoutNUWA.