PosterLLaVa: Создание единого генератора макетов с несколькими модальностями на основе LLM
PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM
June 5, 2024
Авторы: Tao Yang, Yingmin Luo, Zhongang Qi, Yang Wu, Ying Shan, Chang Wen Chen
cs.AI
Аннотация
Генерация макета является ключевым моментом в достижении автоматизированного графического дизайна, требующим упорядочивания положения и размера различных мультимодальных элементов дизайна в визуально приятном и соответствующем ограничениям способе. Предыдущие подходы либо неэффективны для крупномасштабных приложений, либо лишены гибкости для различных требований к дизайну. Наше исследование представляет единый каркас для автоматизированной генерации графического макета, используя мультимодельную крупномасштабную языковую модель (MLLM) для выполнения разнообразных задач дизайна. В отличие от этого, наш метод, основанный на данных, использует структурированный текст (формат JSON) и настройку визуальных инструкций для генерации макетов в соответствии с конкретными визуальными и текстовыми ограничениями, включая спецификации на естественном языке, заданные пользователем. Мы провели обширные эксперименты и достигли передовых показателей (SOTA) на общедоступных бенчмарках мультимодальной генерации макетов, продемонстрировав эффективность нашего метода. Более того, учитывая ограничения существующих наборов данных в отражении сложности графических дизайнов реального мира, мы предлагаем два новых набора данных для более сложных задач (генерация с учетом требований пользователя и сложный постер), дополнительно подтверждая полезность нашей модели в реальных условиях. Отличающийся своей высокой доступностью и адаптивностью, этот подход дополнительно автоматизирует крупномасштабные задачи графического дизайна. Код и наборы данных будут общедоступны на https://github.com/posterllava/PosterLLaVA.
English
Layout generation is the keystone in achieving automated graphic design,
requiring arranging the position and size of various multi-modal design
elements in a visually pleasing and constraint-following manner. Previous
approaches are either inefficient for large-scale applications or lack
flexibility for varying design requirements. Our research introduces a unified
framework for automated graphic layout generation, leveraging the multi-modal
large language model (MLLM) to accommodate diverse design tasks. In contrast,
our data-driven method employs structured text (JSON format) and visual
instruction tuning to generate layouts under specific visual and textual
constraints, including user-defined natural language specifications. We
conducted extensive experiments and achieved state-of-the-art (SOTA)
performance on public multi-modal layout generation benchmarks, demonstrating
the effectiveness of our method. Moreover, recognizing existing datasets'
limitations in capturing the complexity of real-world graphic designs, we
propose two new datasets for much more challenging tasks (user-constrained
generation and complicated poster), further validating our model's utility in
real-life settings. Marking by its superior accessibility and adaptability,
this approach further automates large-scale graphic design tasks. The code and
datasets will be publicly available on
https://github.com/posterllava/PosterLLaVA.Summary
AI-Generated Summary