PosterLLaVa: Het construeren van een geïntegreerde multimodale lay-outgenerator met LLM
PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM
June 5, 2024
Auteurs: Tao Yang, Yingmin Luo, Zhongang Qi, Yang Wu, Ying Shan, Chang Wen Chen
cs.AI
Samenvatting
Lay-outgeneratie is de hoeksteen bij het bereiken van geautomatiseerd grafisch ontwerp, waarbij het positioneren en bepalen van de grootte van verschillende multimodale ontwerpelementen op een visueel aantrekkelijke en beperkingen-volgende manier vereist is. Eerdere benaderingen zijn ofwel inefficiënt voor grootschalige toepassingen of missen flexibiliteit voor uiteenlopende ontwerpeisen. Ons onderzoek introduceert een uniform raamwerk voor geautomatiseerde lay-outgeneratie voor grafisch ontwerp, waarbij gebruik wordt gemaakt van het multimodale grote taalmodel (MLLM) om diverse ontwerptaken te accommoderen. In tegenstelling hiermee maakt onze data-gedreven methode gebruik van gestructureerde tekst (JSON-formaat) en visuele instructieafstemming om lay-outs te genereren onder specifieke visuele en tekstuele beperkingen, waaronder door de gebruiker gedefinieerde specificaties in natuurlijke taal. We hebben uitgebreide experimenten uitgevoerd en state-of-the-art (SOTA) prestaties behaald op openbare multimodale lay-outgeneratiebenchmarks, wat de effectiviteit van onze methode aantoont. Bovendien, erkennend dat bestaande datasets beperkingen hebben in het vastleggen van de complexiteit van real-world grafische ontwerpen, stellen we twee nieuwe datasets voor voor veel uitdagendere taken (gebruikersbeperkte generatie en complexe posters), wat het nut van ons model in real-life situaties verder valideert. Gekenmerkt door zijn superieure toegankelijkheid en aanpasbaarheid, automatiseert deze aanpak grootschalige grafische ontwerptaken verder. De code en datasets zullen openbaar beschikbaar zijn op https://github.com/posterllava/PosterLLaVA.
English
Layout generation is the keystone in achieving automated graphic design,
requiring arranging the position and size of various multi-modal design
elements in a visually pleasing and constraint-following manner. Previous
approaches are either inefficient for large-scale applications or lack
flexibility for varying design requirements. Our research introduces a unified
framework for automated graphic layout generation, leveraging the multi-modal
large language model (MLLM) to accommodate diverse design tasks. In contrast,
our data-driven method employs structured text (JSON format) and visual
instruction tuning to generate layouts under specific visual and textual
constraints, including user-defined natural language specifications. We
conducted extensive experiments and achieved state-of-the-art (SOTA)
performance on public multi-modal layout generation benchmarks, demonstrating
the effectiveness of our method. Moreover, recognizing existing datasets'
limitations in capturing the complexity of real-world graphic designs, we
propose two new datasets for much more challenging tasks (user-constrained
generation and complicated poster), further validating our model's utility in
real-life settings. Marking by its superior accessibility and adaptability,
this approach further automates large-scale graphic design tasks. The code and
datasets will be publicly available on
https://github.com/posterllava/PosterLLaVA.