PosterLLaVa: Costruire un Generatore di Layout Multi-modale Unificato con LLM
PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM
June 5, 2024
Autori: Tao Yang, Yingmin Luo, Zhongang Qi, Yang Wu, Ying Shan, Chang Wen Chen
cs.AI
Abstract
La generazione del layout è la chiave di volta per raggiungere il design grafico automatizzato, richiedendo la disposizione della posizione e delle dimensioni di vari elementi di design multimodali in modo visivamente piacevole e conforme ai vincoli. Gli approcci precedenti sono risultati o inefficienti per applicazioni su larga scala o carenti in flessibilità per soddisfare requisiti di design variabili. La nostra ricerca introduce un framework unificato per la generazione automatizzata di layout grafici, sfruttando il modello di linguaggio multimodale su larga scala (MLLM) per adattarsi a diverse attività di design. Al contrario, il nostro metodo basato sui dati utilizza testo strutturato (formato JSON) e l'ottimizzazione delle istruzioni visive per generare layout sotto specifici vincoli visivi e testuali, incluse specifiche in linguaggio naturale definite dall'utente. Abbiamo condotto esperimenti estesi e raggiunto prestazioni all'avanguardia (SOTA) su benchmark pubblici per la generazione di layout multimodali, dimostrando l'efficacia del nostro metodo. Inoltre, riconoscendo le limitazioni dei dataset esistenti nel catturare la complessità dei design grafici del mondo reale, proponiamo due nuovi dataset per compiti molto più impegnativi (generazione vincolata dall'utente e poster complessi), validando ulteriormente l'utilità del nostro modello in contesti reali. Contrassegnato dalla sua superiore accessibilità e adattabilità, questo approccio automatizza ulteriormente i compiti di design grafico su larga scala. Il codice e i dataset saranno pubblicamente disponibili su https://github.com/posterllava/PosterLLaVA.
English
Layout generation is the keystone in achieving automated graphic design,
requiring arranging the position and size of various multi-modal design
elements in a visually pleasing and constraint-following manner. Previous
approaches are either inefficient for large-scale applications or lack
flexibility for varying design requirements. Our research introduces a unified
framework for automated graphic layout generation, leveraging the multi-modal
large language model (MLLM) to accommodate diverse design tasks. In contrast,
our data-driven method employs structured text (JSON format) and visual
instruction tuning to generate layouts under specific visual and textual
constraints, including user-defined natural language specifications. We
conducted extensive experiments and achieved state-of-the-art (SOTA)
performance on public multi-modal layout generation benchmarks, demonstrating
the effectiveness of our method. Moreover, recognizing existing datasets'
limitations in capturing the complexity of real-world graphic designs, we
propose two new datasets for much more challenging tasks (user-constrained
generation and complicated poster), further validating our model's utility in
real-life settings. Marking by its superior accessibility and adaptability,
this approach further automates large-scale graphic design tasks. The code and
datasets will be publicly available on
https://github.com/posterllava/PosterLLaVA.