LayoutNUWA: Svelare l'Esperienza Nascosta nei Layout dei Modelli Linguistici di Grande Scala

Abstract

La generazione di layout grafici, un campo di ricerca in crescita, svolge un ruolo significativo nell'engagement degli utenti e nella percezione delle informazioni. I metodi esistenti trattano principalmente la generazione di layout come un'ottimizzazione numerica, concentrandosi sugli aspetti quantitativi mentre trascurano le informazioni semantiche del layout, come la relazione tra ciascun elemento del layout. In questo articolo, proponiamo LayoutNUWA, il primo modello che tratta la generazione di layout come un'attività di generazione di codice per migliorare le informazioni semantiche e sfruttare l'esperienza nascosta nei modelli linguistici di grandi dimensioni (LLM). Più concretamente, sviluppiamo un approccio di Code Instruct Tuning (CIT) composto da tre moduli interconnessi: 1) il modulo di Code Initialization (CI) quantifica le condizioni numeriche e le inizializza come codice HTML con maschere posizionate strategicamente; 2) il modulo di Code Completion (CC) utilizza la conoscenza della formattazione degli LLM per riempire le porzioni mascherate all'interno del codice HTML; 3) il modulo di Code Rendering (CR) trasforma il codice completato nell'output finale del layout, garantendo una procedura di generazione del layout altamente interpretabile e trasparente che mappa direttamente il codice a un layout visualizzato. Raggiungiamo prestazioni significative all'avanguardia (con miglioramenti anche superiori al 50%) su più dataset, dimostrando le forti capacità di LayoutNUWA. Il nostro codice è disponibile all'indirizzo https://github.com/ProjectNUWA/LayoutNUWA.

English

Graphic layout generation, a growing research field, plays a significant role in user engagement and information perception. Existing methods primarily treat layout generation as a numerical optimization task, focusing on quantitative aspects while overlooking the semantic information of layout, such as the relationship between each layout element. In this paper, we propose LayoutNUWA, the first model that treats layout generation as a code generation task to enhance semantic information and harness the hidden layout expertise of large language models~(LLMs). More concretely, we develop a Code Instruct Tuning (CIT) approach comprising three interconnected modules: 1) the Code Initialization (CI) module quantifies the numerical conditions and initializes them as HTML code with strategically placed masks; 2) the Code Completion (CC) module employs the formatting knowledge of LLMs to fill in the masked portions within the HTML code; 3) the Code Rendering (CR) module transforms the completed code into the final layout output, ensuring a highly interpretable and transparent layout generation procedure that directly maps code to a visualized layout. We attain significant state-of-the-art performance (even over 50\% improvements) on multiple datasets, showcasing the strong capabilities of LayoutNUWA. Our code is available at https://github.com/ProjectNUWA/LayoutNUWA.

LayoutNUWA: Svelare l'Esperienza Nascosta nei Layout dei Modelli Linguistici di Grande Scala

LayoutNUWA: Revealing the Hidden Layout Expertise of Large Language Models

Abstract

Support