LayoutPrompter: Despertar la capacidad de diseño de los modelos de lenguaje de gran escala

Resumen

La generación condicional de diseños gráficos, que mapea automáticamente las restricciones del usuario a diseños de alta calidad, ha atraído una atención generalizada en la actualidad. Aunque trabajos recientes han logrado un rendimiento prometedor, la falta de versatilidad y eficiencia en el uso de datos dificulta sus aplicaciones prácticas. En este trabajo, proponemos LayoutPrompter, que aprovecha los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para abordar los problemas anteriores mediante el aprendizaje en contexto. LayoutPrompter está compuesto por tres componentes clave: serialización de entrada-salida, selección dinámica de ejemplos y clasificación de diseños. Específicamente, el componente de serialización de entrada-salida diseña meticulosamente los formatos de entrada y salida para cada tarea de generación de diseños. La selección dinámica de ejemplos es responsable de elegir los ejemplos de indicación más útiles para una entrada dada. Y un clasificador de diseños se utiliza para seleccionar el diseño de mayor calidad entre múltiples salidas de los LLMs. Realizamos experimentos en todas las tareas existentes de generación de diseños utilizando cuatro conjuntos de datos públicos. A pesar de la simplicidad de nuestro enfoque, los resultados experimentales muestran que LayoutPrompter puede competir o incluso superar a los enfoques más avanzados en estas tareas sin necesidad de entrenamiento o ajuste del modelo. Esto demuestra la eficacia de este enfoque versátil y libre de entrenamiento. Además, los estudios de ablación muestran que LayoutPrompter es significativamente superior a la línea base basada en entrenamiento en un régimen de datos limitados, lo que indica aún más la eficiencia en el uso de datos de LayoutPrompter. Nuestro proyecto está disponible en https://github.com/microsoft/LayoutGeneration/tree/main/LayoutPrompter.

English

Conditional graphic layout generation, which automatically maps user constraints to high-quality layouts, has attracted widespread attention today. Although recent works have achieved promising performance, the lack of versatility and data efficiency hinders their practical applications. In this work, we propose LayoutPrompter, which leverages large language models (LLMs) to address the above problems through in-context learning. LayoutPrompter is made up of three key components, namely input-output serialization, dynamic exemplar selection and layout ranking. Specifically, the input-output serialization component meticulously designs the input and output formats for each layout generation task. Dynamic exemplar selection is responsible for selecting the most helpful prompting exemplars for a given input. And a layout ranker is used to pick the highest quality layout from multiple outputs of LLMs. We conduct experiments on all existing layout generation tasks using four public datasets. Despite the simplicity of our approach, experimental results show that LayoutPrompter can compete with or even outperform state-of-the-art approaches on these tasks without any model training or fine-tuning. This demonstrates the effectiveness of this versatile and training-free approach. In addition, the ablation studies show that LayoutPrompter is significantly superior to the training-based baseline in a low-data regime, further indicating the data efficiency of LayoutPrompter. Our project is available at https://github.com/microsoft/LayoutGeneration/tree/main/LayoutPrompter.

LayoutPrompter: Despertar la capacidad de diseño de los modelos de lenguaje de gran escala

LayoutPrompter: Awaken the Design Ability of Large Language Models

Resumen

Support