ChatPaper.aiChatPaper

LayoutNUWA : Révéler l'expertise cachée en matière de mise en page des grands modèles de langage

LayoutNUWA: Revealing the Hidden Layout Expertise of Large Language Models

September 18, 2023
Auteurs: Zecheng Tang, Chenfei Wu, Juntao Li, Nan Duan
cs.AI

Résumé

La génération de mise en page graphique, un domaine de recherche en pleine expansion, joue un rôle significatif dans l'engagement des utilisateurs et la perception de l'information. Les méthodes existantes traitent principalement la génération de mise en page comme une tâche d'optimisation numérique, en se concentrant sur les aspects quantitatifs tout en négligeant les informations sémantiques de la mise en page, telles que la relation entre chaque élément de la mise en page. Dans cet article, nous proposons LayoutNUWA, le premier modèle qui traite la génération de mise en page comme une tâche de génération de code pour améliorer les informations sémantiques et exploiter l'expertise cachée en matière de mise en page des grands modèles de langage (LLMs). Plus concrètement, nous développons une approche de Code Instruct Tuning (CIT) comprenant trois modules interconnectés : 1) le module d'initialisation de code (CI) quantifie les conditions numériques et les initialise sous forme de code HTML avec des masques stratégiquement placés ; 2) le module de complétion de code (CC) utilise les connaissances de formatage des LLMs pour remplir les parties masquées dans le code HTML ; 3) le module de rendu de code (CR) transforme le code complété en la mise en page finale, garantissant une procédure de génération de mise en page hautement interprétable et transparente qui mappe directement le code à une mise en page visualisée. Nous obtenons des performances significativement à la pointe de l'état de l'art (même des améliorations de plus de 50 %) sur plusieurs ensembles de données, démontrant les fortes capacités de LayoutNUWA. Notre code est disponible à l'adresse https://github.com/ProjectNUWA/LayoutNUWA.
English
Graphic layout generation, a growing research field, plays a significant role in user engagement and information perception. Existing methods primarily treat layout generation as a numerical optimization task, focusing on quantitative aspects while overlooking the semantic information of layout, such as the relationship between each layout element. In this paper, we propose LayoutNUWA, the first model that treats layout generation as a code generation task to enhance semantic information and harness the hidden layout expertise of large language models~(LLMs). More concretely, we develop a Code Instruct Tuning (CIT) approach comprising three interconnected modules: 1) the Code Initialization (CI) module quantifies the numerical conditions and initializes them as HTML code with strategically placed masks; 2) the Code Completion (CC) module employs the formatting knowledge of LLMs to fill in the masked portions within the HTML code; 3) the Code Rendering (CR) module transforms the completed code into the final layout output, ensuring a highly interpretable and transparent layout generation procedure that directly maps code to a visualized layout. We attain significant state-of-the-art performance (even over 50\% improvements) on multiple datasets, showcasing the strong capabilities of LayoutNUWA. Our code is available at https://github.com/ProjectNUWA/LayoutNUWA.
PDF151December 15, 2024