LayoutNUWA: Revelando a Expertise Oculta de Modelos de Linguagem de Grande Escala em Layouts

Resumo

A geração de layouts gráficos, um campo de pesquisa em crescimento, desempenha um papel significativo no engajamento do usuário e na percepção de informações. Os métodos existentes tratam principalmente a geração de layout como uma tarefa de otimização numérica, focando em aspectos quantitativos enquanto negligenciam as informações semânticas do layout, como a relação entre cada elemento do layout. Neste artigo, propomos o LayoutNUWA, o primeiro modelo que trata a geração de layout como uma tarefa de geração de código para aprimorar as informações semânticas e aproveitar o conhecimento oculto de layout dos grandes modelos de linguagem (LLMs, na sigla em inglês). Mais concretamente, desenvolvemos uma abordagem de Code Instruct Tuning (CIT) composta por três módulos interconectados: 1) o módulo de Inicialização de Código (CI) quantifica as condições numéricas e as inicializa como código HTML com máscaras estrategicamente posicionadas; 2) o módulo de Conclusão de Código (CC) emprega o conhecimento de formatação dos LLMs para preencher as partes mascaradas dentro do código HTML; 3) o módulo de Renderização de Código (CR) transforma o código concluído no layout final, garantindo um procedimento de geração de layout altamente interpretável e transparente que mapeia diretamente o código para um layout visualizado. Alcançamos um desempenho significativo de última geração (melhorias de mais de 50%) em múltiplos conjuntos de dados, demonstrando as fortes capacidades do LayoutNUWA. Nosso código está disponível em https://github.com/ProjectNUWA/LayoutNUWA.

English

Graphic layout generation, a growing research field, plays a significant role in user engagement and information perception. Existing methods primarily treat layout generation as a numerical optimization task, focusing on quantitative aspects while overlooking the semantic information of layout, such as the relationship between each layout element. In this paper, we propose LayoutNUWA, the first model that treats layout generation as a code generation task to enhance semantic information and harness the hidden layout expertise of large language models~(LLMs). More concretely, we develop a Code Instruct Tuning (CIT) approach comprising three interconnected modules: 1) the Code Initialization (CI) module quantifies the numerical conditions and initializes them as HTML code with strategically placed masks; 2) the Code Completion (CC) module employs the formatting knowledge of LLMs to fill in the masked portions within the HTML code; 3) the Code Rendering (CR) module transforms the completed code into the final layout output, ensuring a highly interpretable and transparent layout generation procedure that directly maps code to a visualized layout. We attain significant state-of-the-art performance (even over 50\% improvements) on multiple datasets, showcasing the strong capabilities of LayoutNUWA. Our code is available at https://github.com/ProjectNUWA/LayoutNUWA.

LayoutNUWA: Revelando a Expertise Oculta de Modelos de Linguagem de Grande Escala em Layouts

LayoutNUWA: Revealing the Hidden Layout Expertise of Large Language Models

Resumo

Support