ChatPaper.aiChatPaper

LayoutNUWA: Revelando la Experiencia Oculta en Diseño de Modelos de Lenguaje a Gran Escala

LayoutNUWA: Revealing the Hidden Layout Expertise of Large Language Models

September 18, 2023
Autores: Zecheng Tang, Chenfei Wu, Juntao Li, Nan Duan
cs.AI

Resumen

La generación de diseños gráficos, un campo de investigación en crecimiento, desempeña un papel significativo en la participación del usuario y la percepción de la información. Los métodos existentes tratan principalmente la generación de diseños como una tarea de optimización numérica, centrándose en aspectos cuantitativos mientras pasan por alto la información semántica del diseño, como la relación entre cada elemento del mismo. En este artículo, proponemos LayoutNUWA, el primer modelo que aborda la generación de diseños como una tarea de generación de código para mejorar la información semántica y aprovechar el conocimiento oculto sobre diseños de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés). Más concretamente, desarrollamos un enfoque de Ajuste por Instrucción de Código (CIT, por sus siglas en inglés) que consta de tres módulos interconectados: 1) el módulo de Inicialización de Código (CI) cuantifica las condiciones numéricas y las inicializa como código HTML con máscaras colocadas estratégicamente; 2) el módulo de Completado de Código (CC) utiliza el conocimiento de formato de los LLMs para rellenar las porciones enmascaradas dentro del código HTML; 3) el módulo de Renderizado de Código (CR) transforma el código completado en el diseño final, asegurando un procedimiento de generación de diseños altamente interpretable y transparente que mapea directamente el código a un diseño visualizado. Logramos un rendimiento significativo de vanguardia (incluso mejoras superiores al 50%) en múltiples conjuntos de datos, demostrando las fuertes capacidades de LayoutNUWA. Nuestro código está disponible en https://github.com/ProjectNUWA/LayoutNUWA.
English
Graphic layout generation, a growing research field, plays a significant role in user engagement and information perception. Existing methods primarily treat layout generation as a numerical optimization task, focusing on quantitative aspects while overlooking the semantic information of layout, such as the relationship between each layout element. In this paper, we propose LayoutNUWA, the first model that treats layout generation as a code generation task to enhance semantic information and harness the hidden layout expertise of large language models~(LLMs). More concretely, we develop a Code Instruct Tuning (CIT) approach comprising three interconnected modules: 1) the Code Initialization (CI) module quantifies the numerical conditions and initializes them as HTML code with strategically placed masks; 2) the Code Completion (CC) module employs the formatting knowledge of LLMs to fill in the masked portions within the HTML code; 3) the Code Rendering (CR) module transforms the completed code into the final layout output, ensuring a highly interpretable and transparent layout generation procedure that directly maps code to a visualized layout. We attain significant state-of-the-art performance (even over 50\% improvements) on multiple datasets, showcasing the strong capabilities of LayoutNUWA. Our code is available at https://github.com/ProjectNUWA/LayoutNUWA.
PDF151December 15, 2024