LayoutPrompter: Despertando a Capacidade de Design em Modelos de Linguagem de Grande Escala
LayoutPrompter: Awaken the Design Ability of Large Language Models
November 11, 2023
Autores: Jiawei Lin, Jiaqi Guo, Shizhao Sun, Zijiang James Yang, Jian-Guang Lou, Dongmei Zhang
cs.AI
Resumo
A geração condicional de layouts gráficos, que mapeia automaticamente as restrições do usuário para layouts de alta qualidade, tem atraído ampla atenção atualmente. Embora trabalhos recentes tenham alcançado desempenhos promissores, a falta de versatilidade e eficiência de dados dificulta suas aplicações práticas. Neste trabalho, propomos o LayoutPrompter, que aproveita modelos de linguagem de grande escala (LLMs) para abordar os problemas acima por meio de aprendizado em contexto. O LayoutPrompter é composto por três componentes principais: serialização de entrada-saída, seleção dinâmica de exemplos e classificação de layouts. Especificamente, o componente de serialização de entrada-saída projeta meticulosamente os formatos de entrada e saída para cada tarefa de geração de layout. A seleção dinâmica de exemplos é responsável por escolher os exemplos de prompt mais úteis para uma determinada entrada. E um classificador de layouts é usado para selecionar o layout de mais alta qualidade entre múltiplas saídas dos LLMs. Realizamos experimentos em todas as tarefas existentes de geração de layout usando quatro conjuntos de dados públicos. Apesar da simplicidade de nossa abordagem, os resultados experimentais mostram que o LayoutPrompter pode competir ou até superar as abordagens state-of-the-art nessas tarefas sem qualquer treinamento ou ajuste de modelo. Isso demonstra a eficácia dessa abordagem versátil e livre de treinamento. Além disso, os estudos de ablação mostram que o LayoutPrompter é significativamente superior à linha de base baseada em treinamento em um regime de baixo volume de dados, indicando ainda mais a eficiência de dados do LayoutPrompter. Nosso projeto está disponível em https://github.com/microsoft/LayoutGeneration/tree/main/LayoutPrompter.
English
Conditional graphic layout generation, which automatically maps user
constraints to high-quality layouts, has attracted widespread attention today.
Although recent works have achieved promising performance, the lack of
versatility and data efficiency hinders their practical applications. In this
work, we propose LayoutPrompter, which leverages large language models (LLMs)
to address the above problems through in-context learning. LayoutPrompter is
made up of three key components, namely input-output serialization, dynamic
exemplar selection and layout ranking. Specifically, the input-output
serialization component meticulously designs the input and output formats for
each layout generation task. Dynamic exemplar selection is responsible for
selecting the most helpful prompting exemplars for a given input. And a layout
ranker is used to pick the highest quality layout from multiple outputs of
LLMs. We conduct experiments on all existing layout generation tasks using four
public datasets. Despite the simplicity of our approach, experimental results
show that LayoutPrompter can compete with or even outperform state-of-the-art
approaches on these tasks without any model training or fine-tuning. This
demonstrates the effectiveness of this versatile and training-free approach. In
addition, the ablation studies show that LayoutPrompter is significantly
superior to the training-based baseline in a low-data regime, further
indicating the data efficiency of LayoutPrompter. Our project is available at
https://github.com/microsoft/LayoutGeneration/tree/main/LayoutPrompter.