LayoutNUWA: Svelare l'Esperienza Nascosta nei Layout dei Modelli Linguistici di Grande Scala
LayoutNUWA: Revealing the Hidden Layout Expertise of Large Language Models
September 18, 2023
Autori: Zecheng Tang, Chenfei Wu, Juntao Li, Nan Duan
cs.AI
Abstract
La generazione di layout grafici, un campo di ricerca in crescita, svolge un ruolo significativo nell'engagement degli utenti e nella percezione delle informazioni. I metodi esistenti trattano principalmente la generazione di layout come un'ottimizzazione numerica, concentrandosi sugli aspetti quantitativi mentre trascurano le informazioni semantiche del layout, come la relazione tra ciascun elemento del layout. In questo articolo, proponiamo LayoutNUWA, il primo modello che tratta la generazione di layout come un'attività di generazione di codice per migliorare le informazioni semantiche e sfruttare l'esperienza nascosta nei modelli linguistici di grandi dimensioni (LLM). Più concretamente, sviluppiamo un approccio di Code Instruct Tuning (CIT) composto da tre moduli interconnessi: 1) il modulo di Code Initialization (CI) quantifica le condizioni numeriche e le inizializza come codice HTML con maschere posizionate strategicamente; 2) il modulo di Code Completion (CC) utilizza la conoscenza della formattazione degli LLM per riempire le porzioni mascherate all'interno del codice HTML; 3) il modulo di Code Rendering (CR) trasforma il codice completato nell'output finale del layout, garantendo una procedura di generazione del layout altamente interpretabile e trasparente che mappa direttamente il codice a un layout visualizzato. Raggiungiamo prestazioni significative all'avanguardia (con miglioramenti anche superiori al 50%) su più dataset, dimostrando le forti capacità di LayoutNUWA. Il nostro codice è disponibile all'indirizzo https://github.com/ProjectNUWA/LayoutNUWA.
English
Graphic layout generation, a growing research field, plays a significant role
in user engagement and information perception. Existing methods primarily treat
layout generation as a numerical optimization task, focusing on quantitative
aspects while overlooking the semantic information of layout, such as the
relationship between each layout element. In this paper, we propose LayoutNUWA,
the first model that treats layout generation as a code generation task to
enhance semantic information and harness the hidden layout expertise of large
language models~(LLMs). More concretely, we develop a Code Instruct Tuning
(CIT) approach comprising three interconnected modules: 1) the Code
Initialization (CI) module quantifies the numerical conditions and initializes
them as HTML code with strategically placed masks; 2) the Code Completion (CC)
module employs the formatting knowledge of LLMs to fill in the masked portions
within the HTML code; 3) the Code Rendering (CR) module transforms the
completed code into the final layout output, ensuring a highly interpretable
and transparent layout generation procedure that directly maps code to a
visualized layout. We attain significant state-of-the-art performance (even
over 50\% improvements) on multiple datasets, showcasing the strong
capabilities of LayoutNUWA. Our code is available at
https://github.com/ProjectNUWA/LayoutNUWA.