PosterLLaVa: Konstruktion eines vereinheitlichten multimodalen Layout-Generators mit LLM
PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM
June 5, 2024
Autoren: Tao Yang, Yingmin Luo, Zhongang Qi, Yang Wu, Ying Shan, Chang Wen Chen
cs.AI
Zusammenfassung
Die Layoutgenerierung ist der Schlüssel zur automatisierten grafischen Gestaltung und erfordert das Anordnen der Position und Größe verschiedener multimodaler Designelemente auf visuell ansprechende und einschränkungskonforme Weise. Frühere Ansätze sind entweder ineffizient für Anwendungen im großen Maßstab oder mangelt es an Flexibilität für unterschiedliche Designanforderungen. Unsere Forschung stellt ein einheitliches Framework für die automatisierte grafische Layoutgenerierung vor, das das multimodale große Sprachmodell (MLLM) nutzt, um verschiedene Designaufgaben zu bewältigen. Im Gegensatz dazu verwendet unsere datengesteuerte Methode strukturierten Text (im JSON-Format) und visuelle Anweisungsoptimierung, um Layouts unter spezifischen visuellen und textuellen Einschränkungen zu generieren, einschließlich benutzerdefinierter Spezifikationen in natürlicher Sprache. Wir führten umfangreiche Experimente durch und erzielten eine Spitzenleistung auf öffentlichen Benchmarks für die multimodale Layoutgenerierung, was die Wirksamkeit unserer Methode zeigt. Darüber hinaus, da bestehende Datensätze die Komplexität realer grafischer Designs nur begrenzt erfassen, schlagen wir zwei neue Datensätze für deutlich anspruchsvollere Aufgaben vor (benutzerbeschränkte Generierung und komplizierter Poster), um die Nützlichkeit unseres Modells in realen Situationen weiter zu validieren. Durch seine überlegene Zugänglichkeit und Anpassungsfähigkeit automatisiert dieser Ansatz weitere grafische Designaufgaben im großen Maßstab. Der Code und die Datensätze werden öffentlich verfügbar sein unter https://github.com/posterllava/PosterLLaVA.
English
Layout generation is the keystone in achieving automated graphic design,
requiring arranging the position and size of various multi-modal design
elements in a visually pleasing and constraint-following manner. Previous
approaches are either inefficient for large-scale applications or lack
flexibility for varying design requirements. Our research introduces a unified
framework for automated graphic layout generation, leveraging the multi-modal
large language model (MLLM) to accommodate diverse design tasks. In contrast,
our data-driven method employs structured text (JSON format) and visual
instruction tuning to generate layouts under specific visual and textual
constraints, including user-defined natural language specifications. We
conducted extensive experiments and achieved state-of-the-art (SOTA)
performance on public multi-modal layout generation benchmarks, demonstrating
the effectiveness of our method. Moreover, recognizing existing datasets'
limitations in capturing the complexity of real-world graphic designs, we
propose two new datasets for much more challenging tasks (user-constrained
generation and complicated poster), further validating our model's utility in
real-life settings. Marking by its superior accessibility and adaptability,
this approach further automates large-scale graphic design tasks. The code and
datasets will be publicly available on
https://github.com/posterllava/PosterLLaVA.Summary
AI-Generated Summary