LayoutPrompter: Despertar la capacidad de diseño de los modelos de lenguaje de gran escala
LayoutPrompter: Awaken the Design Ability of Large Language Models
November 11, 2023
Autores: Jiawei Lin, Jiaqi Guo, Shizhao Sun, Zijiang James Yang, Jian-Guang Lou, Dongmei Zhang
cs.AI
Resumen
La generación condicional de diseños gráficos, que mapea automáticamente las restricciones del usuario a diseños de alta calidad, ha atraído una atención generalizada en la actualidad. Aunque trabajos recientes han logrado un rendimiento prometedor, la falta de versatilidad y eficiencia en el uso de datos dificulta sus aplicaciones prácticas. En este trabajo, proponemos LayoutPrompter, que aprovecha los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para abordar los problemas anteriores mediante el aprendizaje en contexto. LayoutPrompter está compuesto por tres componentes clave: serialización de entrada-salida, selección dinámica de ejemplos y clasificación de diseños. Específicamente, el componente de serialización de entrada-salida diseña meticulosamente los formatos de entrada y salida para cada tarea de generación de diseños. La selección dinámica de ejemplos es responsable de elegir los ejemplos de indicación más útiles para una entrada dada. Y un clasificador de diseños se utiliza para seleccionar el diseño de mayor calidad entre múltiples salidas de los LLMs. Realizamos experimentos en todas las tareas existentes de generación de diseños utilizando cuatro conjuntos de datos públicos. A pesar de la simplicidad de nuestro enfoque, los resultados experimentales muestran que LayoutPrompter puede competir o incluso superar a los enfoques más avanzados en estas tareas sin necesidad de entrenamiento o ajuste del modelo. Esto demuestra la eficacia de este enfoque versátil y libre de entrenamiento. Además, los estudios de ablación muestran que LayoutPrompter es significativamente superior a la línea base basada en entrenamiento en un régimen de datos limitados, lo que indica aún más la eficiencia en el uso de datos de LayoutPrompter. Nuestro proyecto está disponible en https://github.com/microsoft/LayoutGeneration/tree/main/LayoutPrompter.
English
Conditional graphic layout generation, which automatically maps user
constraints to high-quality layouts, has attracted widespread attention today.
Although recent works have achieved promising performance, the lack of
versatility and data efficiency hinders their practical applications. In this
work, we propose LayoutPrompter, which leverages large language models (LLMs)
to address the above problems through in-context learning. LayoutPrompter is
made up of three key components, namely input-output serialization, dynamic
exemplar selection and layout ranking. Specifically, the input-output
serialization component meticulously designs the input and output formats for
each layout generation task. Dynamic exemplar selection is responsible for
selecting the most helpful prompting exemplars for a given input. And a layout
ranker is used to pick the highest quality layout from multiple outputs of
LLMs. We conduct experiments on all existing layout generation tasks using four
public datasets. Despite the simplicity of our approach, experimental results
show that LayoutPrompter can compete with or even outperform state-of-the-art
approaches on these tasks without any model training or fine-tuning. This
demonstrates the effectiveness of this versatile and training-free approach. In
addition, the ablation studies show that LayoutPrompter is significantly
superior to the training-based baseline in a low-data regime, further
indicating the data efficiency of LayoutPrompter. Our project is available at
https://github.com/microsoft/LayoutGeneration/tree/main/LayoutPrompter.