LayoutPrompter: Risvegliare le Capacità Progettuali dei Modelli Linguistici di Grande Dimensione

Abstract

La generazione condizionale di layout grafici, che mappa automaticamente i vincoli dell'utente in layout di alta qualità, ha attirato un'attenzione significativa oggi. Nonostante i recenti lavori abbiano raggiunto prestazioni promettenti, la mancanza di versatilità e di efficienza nei dati ne ostacola le applicazioni pratiche. In questo lavoro, proponiamo LayoutPrompter, che sfrutta i grandi modelli linguistici (LLM) per affrontare i suddetti problemi attraverso l'apprendimento in contesto. LayoutPrompter è composto da tre componenti chiave: serializzazione input-output, selezione dinamica di esempi e ranking dei layout. Nello specifico, il componente di serializzazione input-output progetta meticolosamente i formati di input e output per ogni task di generazione di layout. La selezione dinamica di esempi è responsabile della scelta degli esempi più utili per un dato input. E un ranker di layout viene utilizzato per selezionare il layout di qualità più alta tra le molteplici uscite degli LLM. Abbiamo condotto esperimenti su tutti i task esistenti di generazione di layout utilizzando quattro dataset pubblici. Nonostante la semplicità del nostro approccio, i risultati sperimentali mostrano che LayoutPrompter può competere o addirittura superare gli approcci all'avanguardia su questi task senza alcun addestramento o fine-tuning del modello. Ciò dimostra l'efficacia di questo approccio versatile e privo di addestramento. Inoltre, gli studi di ablazione mostrano che LayoutPrompter è significativamente superiore alla baseline basata su addestramento in un regime di dati limitati, indicando ulteriormente l'efficienza nei dati di LayoutPrompter. Il nostro progetto è disponibile all'indirizzo https://github.com/microsoft/LayoutGeneration/tree/main/LayoutPrompter.

English

Conditional graphic layout generation, which automatically maps user constraints to high-quality layouts, has attracted widespread attention today. Although recent works have achieved promising performance, the lack of versatility and data efficiency hinders their practical applications. In this work, we propose LayoutPrompter, which leverages large language models (LLMs) to address the above problems through in-context learning. LayoutPrompter is made up of three key components, namely input-output serialization, dynamic exemplar selection and layout ranking. Specifically, the input-output serialization component meticulously designs the input and output formats for each layout generation task. Dynamic exemplar selection is responsible for selecting the most helpful prompting exemplars for a given input. And a layout ranker is used to pick the highest quality layout from multiple outputs of LLMs. We conduct experiments on all existing layout generation tasks using four public datasets. Despite the simplicity of our approach, experimental results show that LayoutPrompter can compete with or even outperform state-of-the-art approaches on these tasks without any model training or fine-tuning. This demonstrates the effectiveness of this versatile and training-free approach. In addition, the ablation studies show that LayoutPrompter is significantly superior to the training-based baseline in a low-data regime, further indicating the data efficiency of LayoutPrompter. Our project is available at https://github.com/microsoft/LayoutGeneration/tree/main/LayoutPrompter.

LayoutPrompter: Risvegliare le Capacità Progettuali dei Modelli Linguistici di Grande Dimensione

LayoutPrompter: Awaken the Design Ability of Large Language Models

Abstract

Support