LayoutNUWA: Revelando a Expertise Oculta de Modelos de Linguagem de Grande Escala em Layouts
LayoutNUWA: Revealing the Hidden Layout Expertise of Large Language Models
September 18, 2023
Autores: Zecheng Tang, Chenfei Wu, Juntao Li, Nan Duan
cs.AI
Resumo
A geração de layouts gráficos, um campo de pesquisa em crescimento, desempenha um papel significativo no engajamento do usuário e na percepção de informações. Os métodos existentes tratam principalmente a geração de layout como uma tarefa de otimização numérica, focando em aspectos quantitativos enquanto negligenciam as informações semânticas do layout, como a relação entre cada elemento do layout. Neste artigo, propomos o LayoutNUWA, o primeiro modelo que trata a geração de layout como uma tarefa de geração de código para aprimorar as informações semânticas e aproveitar o conhecimento oculto de layout dos grandes modelos de linguagem (LLMs, na sigla em inglês). Mais concretamente, desenvolvemos uma abordagem de Code Instruct Tuning (CIT) composta por três módulos interconectados: 1) o módulo de Inicialização de Código (CI) quantifica as condições numéricas e as inicializa como código HTML com máscaras estrategicamente posicionadas; 2) o módulo de Conclusão de Código (CC) emprega o conhecimento de formatação dos LLMs para preencher as partes mascaradas dentro do código HTML; 3) o módulo de Renderização de Código (CR) transforma o código concluído no layout final, garantindo um procedimento de geração de layout altamente interpretável e transparente que mapeia diretamente o código para um layout visualizado. Alcançamos um desempenho significativo de última geração (melhorias de mais de 50%) em múltiplos conjuntos de dados, demonstrando as fortes capacidades do LayoutNUWA. Nosso código está disponível em https://github.com/ProjectNUWA/LayoutNUWA.
English
Graphic layout generation, a growing research field, plays a significant role
in user engagement and information perception. Existing methods primarily treat
layout generation as a numerical optimization task, focusing on quantitative
aspects while overlooking the semantic information of layout, such as the
relationship between each layout element. In this paper, we propose LayoutNUWA,
the first model that treats layout generation as a code generation task to
enhance semantic information and harness the hidden layout expertise of large
language models~(LLMs). More concretely, we develop a Code Instruct Tuning
(CIT) approach comprising three interconnected modules: 1) the Code
Initialization (CI) module quantifies the numerical conditions and initializes
them as HTML code with strategically placed masks; 2) the Code Completion (CC)
module employs the formatting knowledge of LLMs to fill in the masked portions
within the HTML code; 3) the Code Rendering (CR) module transforms the
completed code into the final layout output, ensuring a highly interpretable
and transparent layout generation procedure that directly maps code to a
visualized layout. We attain significant state-of-the-art performance (even
over 50\% improvements) on multiple datasets, showcasing the strong
capabilities of LayoutNUWA. Our code is available at
https://github.com/ProjectNUWA/LayoutNUWA.