LayoutPrompter : Réveiller les capacités de conception des modèles de langage de grande taille
LayoutPrompter: Awaken the Design Ability of Large Language Models
November 11, 2023
Auteurs: Jiawei Lin, Jiaqi Guo, Shizhao Sun, Zijiang James Yang, Jian-Guang Lou, Dongmei Zhang
cs.AI
Résumé
La génération conditionnelle de mise en page graphique, qui mappe automatiquement les contraintes de l'utilisateur vers des mises en page de haute qualité, a suscité une attention considérable aujourd'hui. Bien que les travaux récents aient obtenu des performances prometteuses, le manque de polyvalence et d'efficacité des données entrave leurs applications pratiques. Dans ce travail, nous proposons LayoutPrompter, qui exploite les grands modèles de langage (LLMs) pour résoudre ces problèmes grâce à l'apprentissage en contexte. LayoutPrompter est composé de trois éléments clés, à savoir la sérialisation entrée-sortie, la sélection dynamique d'exemples et le classement des mises en page. Plus précisément, le composant de sérialisation entrée-sortie conçoit méticuleusement les formats d'entrée et de sortie pour chaque tâche de génération de mise en page. La sélection dynamique d'exemples est chargée de choisir les exemples de prompt les plus utiles pour une entrée donnée. Et un classificateur de mises en page est utilisé pour sélectionner la mise en page de la plus haute qualité parmi les multiples sorties des LLMs. Nous menons des expériences sur toutes les tâches existantes de génération de mise en page en utilisant quatre ensembles de données publics. Malgré la simplicité de notre approche, les résultats expérimentaux montrent que LayoutPrompter peut rivaliser avec, voire surpasser, les approches de pointe sur ces tâches sans aucun entraînement ou ajustement de modèle. Cela démontre l'efficacité de cette approche polyvalente et sans entraînement. De plus, les études d'ablation montrent que LayoutPrompter est nettement supérieur à la base de référence basée sur l'entraînement dans un régime de faible quantité de données, indiquant davantage l'efficacité des données de LayoutPrompter. Notre projet est disponible à l'adresse https://github.com/microsoft/LayoutGeneration/tree/main/LayoutPrompter.
English
Conditional graphic layout generation, which automatically maps user
constraints to high-quality layouts, has attracted widespread attention today.
Although recent works have achieved promising performance, the lack of
versatility and data efficiency hinders their practical applications. In this
work, we propose LayoutPrompter, which leverages large language models (LLMs)
to address the above problems through in-context learning. LayoutPrompter is
made up of three key components, namely input-output serialization, dynamic
exemplar selection and layout ranking. Specifically, the input-output
serialization component meticulously designs the input and output formats for
each layout generation task. Dynamic exemplar selection is responsible for
selecting the most helpful prompting exemplars for a given input. And a layout
ranker is used to pick the highest quality layout from multiple outputs of
LLMs. We conduct experiments on all existing layout generation tasks using four
public datasets. Despite the simplicity of our approach, experimental results
show that LayoutPrompter can compete with or even outperform state-of-the-art
approaches on these tasks without any model training or fine-tuning. This
demonstrates the effectiveness of this versatile and training-free approach. In
addition, the ablation studies show that LayoutPrompter is significantly
superior to the training-based baseline in a low-data regime, further
indicating the data efficiency of LayoutPrompter. Our project is available at
https://github.com/microsoft/LayoutGeneration/tree/main/LayoutPrompter.