ChatPaper.aiChatPaper

PosterLLaVa: Het construeren van een geïntegreerde multimodale lay-outgenerator met LLM

PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM

June 5, 2024
Auteurs: Tao Yang, Yingmin Luo, Zhongang Qi, Yang Wu, Ying Shan, Chang Wen Chen
cs.AI

Samenvatting

Lay-outgeneratie is de hoeksteen bij het bereiken van geautomatiseerd grafisch ontwerp, waarbij het positioneren en bepalen van de grootte van verschillende multimodale ontwerpelementen op een visueel aantrekkelijke en beperkingen-volgende manier vereist is. Eerdere benaderingen zijn ofwel inefficiënt voor grootschalige toepassingen of missen flexibiliteit voor uiteenlopende ontwerpeisen. Ons onderzoek introduceert een uniform raamwerk voor geautomatiseerde lay-outgeneratie voor grafisch ontwerp, waarbij gebruik wordt gemaakt van het multimodale grote taalmodel (MLLM) om diverse ontwerptaken te accommoderen. In tegenstelling hiermee maakt onze data-gedreven methode gebruik van gestructureerde tekst (JSON-formaat) en visuele instructieafstemming om lay-outs te genereren onder specifieke visuele en tekstuele beperkingen, waaronder door de gebruiker gedefinieerde specificaties in natuurlijke taal. We hebben uitgebreide experimenten uitgevoerd en state-of-the-art (SOTA) prestaties behaald op openbare multimodale lay-outgeneratiebenchmarks, wat de effectiviteit van onze methode aantoont. Bovendien, erkennend dat bestaande datasets beperkingen hebben in het vastleggen van de complexiteit van real-world grafische ontwerpen, stellen we twee nieuwe datasets voor voor veel uitdagendere taken (gebruikersbeperkte generatie en complexe posters), wat het nut van ons model in real-life situaties verder valideert. Gekenmerkt door zijn superieure toegankelijkheid en aanpasbaarheid, automatiseert deze aanpak grootschalige grafische ontwerptaken verder. De code en datasets zullen openbaar beschikbaar zijn op https://github.com/posterllava/PosterLLaVA.
English
Layout generation is the keystone in achieving automated graphic design, requiring arranging the position and size of various multi-modal design elements in a visually pleasing and constraint-following manner. Previous approaches are either inefficient for large-scale applications or lack flexibility for varying design requirements. Our research introduces a unified framework for automated graphic layout generation, leveraging the multi-modal large language model (MLLM) to accommodate diverse design tasks. In contrast, our data-driven method employs structured text (JSON format) and visual instruction tuning to generate layouts under specific visual and textual constraints, including user-defined natural language specifications. We conducted extensive experiments and achieved state-of-the-art (SOTA) performance on public multi-modal layout generation benchmarks, demonstrating the effectiveness of our method. Moreover, recognizing existing datasets' limitations in capturing the complexity of real-world graphic designs, we propose two new datasets for much more challenging tasks (user-constrained generation and complicated poster), further validating our model's utility in real-life settings. Marking by its superior accessibility and adaptability, this approach further automates large-scale graphic design tasks. The code and datasets will be publicly available on https://github.com/posterllava/PosterLLaVA.
PDF192December 12, 2024