LayoutPrompter: Erwecken der Gestaltungsfähigkeit großer Sprachmodelle
LayoutPrompter: Awaken the Design Ability of Large Language Models
November 11, 2023
Autoren: Jiawei Lin, Jiaqi Guo, Shizhao Sun, Zijiang James Yang, Jian-Guang Lou, Dongmei Zhang
cs.AI
Zusammenfassung
Die bedingte Erzeugung von grafischen Layouts, die automatisch Benutzereinschränkungen in hochwertige Layouts abbildet, hat heute breite Aufmerksamkeit erregt. Obwohl aktuelle Arbeiten vielversprechende Leistungen erzielt haben, behindern der Mangel an Vielseitigkeit und Dateneffizienz ihre praktische Anwendung. In dieser Arbeit schlagen wir LayoutPrompter vor, das große Sprachmodelle (LLMs) nutzt, um die oben genannten Probleme durch In-Context-Lernen zu lösen. LayoutPrompter besteht aus drei Schlüsselkomponenten: Input-Output-Serialisierung, dynamische Beispielauswahl und Layout-Ranking. Konkret entwirft die Input-Output-Serialisierungskomponente sorgfältig die Eingabe- und Ausgabeformate für jede Layoutgenerierungsaufgabe. Die dynamische Beispielauswahl ist dafür verantwortlich, die hilfreichsten Prompting-Beispiele für eine gegebene Eingabe auszuwählen. Und ein Layout-Ranker wird verwendet, um das qualitativ hochwertigste Layout aus mehreren Ausgaben der LLMs auszuwählen. Wir führen Experimente zu allen bestehenden Layoutgenerierungsaufgaben mit vier öffentlichen Datensätzen durch. Trotz der Einfachheit unseres Ansatzes zeigen die experimentellen Ergebnisse, dass LayoutPrompter mit den state-of-the-art Ansätzen auf diesen Aufgaben mithalten oder sie sogar übertreffen kann, ohne dass ein Modelltraining oder eine Feinabstimmung erforderlich ist. Dies demonstriert die Wirksamkeit dieses vielseitigen und trainingsfreien Ansatzes. Darüber hinaus zeigen die Ablationsstudien, dass LayoutPrompter in einem Low-Data-Regime dem trainingsbasierten Baseline-Modell deutlich überlegen ist, was weiter auf die Dateneffizienz von LayoutPrompter hinweist. Unser Projekt ist verfügbar unter https://github.com/microsoft/LayoutGeneration/tree/main/LayoutPrompter.
English
Conditional graphic layout generation, which automatically maps user
constraints to high-quality layouts, has attracted widespread attention today.
Although recent works have achieved promising performance, the lack of
versatility and data efficiency hinders their practical applications. In this
work, we propose LayoutPrompter, which leverages large language models (LLMs)
to address the above problems through in-context learning. LayoutPrompter is
made up of three key components, namely input-output serialization, dynamic
exemplar selection and layout ranking. Specifically, the input-output
serialization component meticulously designs the input and output formats for
each layout generation task. Dynamic exemplar selection is responsible for
selecting the most helpful prompting exemplars for a given input. And a layout
ranker is used to pick the highest quality layout from multiple outputs of
LLMs. We conduct experiments on all existing layout generation tasks using four
public datasets. Despite the simplicity of our approach, experimental results
show that LayoutPrompter can compete with or even outperform state-of-the-art
approaches on these tasks without any model training or fine-tuning. This
demonstrates the effectiveness of this versatile and training-free approach. In
addition, the ablation studies show that LayoutPrompter is significantly
superior to the training-based baseline in a low-data regime, further
indicating the data efficiency of LayoutPrompter. Our project is available at
https://github.com/microsoft/LayoutGeneration/tree/main/LayoutPrompter.