LayoutPrompter: Risvegliare le Capacità Progettuali dei Modelli Linguistici di Grande Dimensione
LayoutPrompter: Awaken the Design Ability of Large Language Models
November 11, 2023
Autori: Jiawei Lin, Jiaqi Guo, Shizhao Sun, Zijiang James Yang, Jian-Guang Lou, Dongmei Zhang
cs.AI
Abstract
La generazione condizionale di layout grafici, che mappa automaticamente i vincoli dell'utente in layout di alta qualità, ha attirato un'attenzione significativa oggi. Nonostante i recenti lavori abbiano raggiunto prestazioni promettenti, la mancanza di versatilità e di efficienza nei dati ne ostacola le applicazioni pratiche. In questo lavoro, proponiamo LayoutPrompter, che sfrutta i grandi modelli linguistici (LLM) per affrontare i suddetti problemi attraverso l'apprendimento in contesto. LayoutPrompter è composto da tre componenti chiave: serializzazione input-output, selezione dinamica di esempi e ranking dei layout. Nello specifico, il componente di serializzazione input-output progetta meticolosamente i formati di input e output per ogni task di generazione di layout. La selezione dinamica di esempi è responsabile della scelta degli esempi più utili per un dato input. E un ranker di layout viene utilizzato per selezionare il layout di qualità più alta tra le molteplici uscite degli LLM. Abbiamo condotto esperimenti su tutti i task esistenti di generazione di layout utilizzando quattro dataset pubblici. Nonostante la semplicità del nostro approccio, i risultati sperimentali mostrano che LayoutPrompter può competere o addirittura superare gli approcci all'avanguardia su questi task senza alcun addestramento o fine-tuning del modello. Ciò dimostra l'efficacia di questo approccio versatile e privo di addestramento. Inoltre, gli studi di ablazione mostrano che LayoutPrompter è significativamente superiore alla baseline basata su addestramento in un regime di dati limitati, indicando ulteriormente l'efficienza nei dati di LayoutPrompter. Il nostro progetto è disponibile all'indirizzo https://github.com/microsoft/LayoutGeneration/tree/main/LayoutPrompter.
English
Conditional graphic layout generation, which automatically maps user
constraints to high-quality layouts, has attracted widespread attention today.
Although recent works have achieved promising performance, the lack of
versatility and data efficiency hinders their practical applications. In this
work, we propose LayoutPrompter, which leverages large language models (LLMs)
to address the above problems through in-context learning. LayoutPrompter is
made up of three key components, namely input-output serialization, dynamic
exemplar selection and layout ranking. Specifically, the input-output
serialization component meticulously designs the input and output formats for
each layout generation task. Dynamic exemplar selection is responsible for
selecting the most helpful prompting exemplars for a given input. And a layout
ranker is used to pick the highest quality layout from multiple outputs of
LLMs. We conduct experiments on all existing layout generation tasks using four
public datasets. Despite the simplicity of our approach, experimental results
show that LayoutPrompter can compete with or even outperform state-of-the-art
approaches on these tasks without any model training or fine-tuning. This
demonstrates the effectiveness of this versatile and training-free approach. In
addition, the ablation studies show that LayoutPrompter is significantly
superior to the training-based baseline in a low-data regime, further
indicating the data efficiency of LayoutPrompter. Our project is available at
https://github.com/microsoft/LayoutGeneration/tree/main/LayoutPrompter.