PosterLLaVa: Construindo um Gerador Unificado de Layout Multi-modal com LLM
PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM
June 5, 2024
Autores: Tao Yang, Yingmin Luo, Zhongang Qi, Yang Wu, Ying Shan, Chang Wen Chen
cs.AI
Resumo
A geração de layout é a pedra angular para alcançar o design gráfico automatizado, exigindo o arranjo da posição e do tamanho de diversos elementos de design multimodais de forma visualmente agradável e em conformidade com restrições. Abordagens anteriores são ou ineficientes para aplicações em larga escala ou carecem de flexibilidade para atender a requisitos de design variados. Nossa pesquisa introduz uma estrutura unificada para a geração automatizada de layouts gráficos, aproveitando o modelo de linguagem multimodal de grande escala (MLLM) para acomodar diversas tarefas de design. Em contraste, nosso método baseado em dados emprega texto estruturado (formato JSON) e ajuste de instruções visuais para gerar layouts sob restrições visuais e textuais específicas, incluindo especificações em linguagem natural definidas pelo usuário. Realizamos extensos experimentos e alcançamos desempenho de ponta (SOTA) em benchmarks públicos de geração de layouts multimodais, demonstrando a eficácia do nosso método. Além disso, reconhecendo as limitações dos conjuntos de dados existentes em capturar a complexidade dos designs gráficos do mundo real, propomos dois novos conjuntos de dados para tarefas muito mais desafiadoras (geração com restrições do usuário e pôsteres complexos), validando ainda mais a utilidade do nosso modelo em cenários reais. Marcado por sua superior acessibilidade e adaptabilidade, essa abordagem automatiza ainda mais tarefas de design gráfico em larga escala. O código e os conjuntos de dados estarão publicamente disponíveis em https://github.com/posterllava/PosterLLaVA.
English
Layout generation is the keystone in achieving automated graphic design,
requiring arranging the position and size of various multi-modal design
elements in a visually pleasing and constraint-following manner. Previous
approaches are either inefficient for large-scale applications or lack
flexibility for varying design requirements. Our research introduces a unified
framework for automated graphic layout generation, leveraging the multi-modal
large language model (MLLM) to accommodate diverse design tasks. In contrast,
our data-driven method employs structured text (JSON format) and visual
instruction tuning to generate layouts under specific visual and textual
constraints, including user-defined natural language specifications. We
conducted extensive experiments and achieved state-of-the-art (SOTA)
performance on public multi-modal layout generation benchmarks, demonstrating
the effectiveness of our method. Moreover, recognizing existing datasets'
limitations in capturing the complexity of real-world graphic designs, we
propose two new datasets for much more challenging tasks (user-constrained
generation and complicated poster), further validating our model's utility in
real-life settings. Marking by its superior accessibility and adaptability,
this approach further automates large-scale graphic design tasks. The code and
datasets will be publicly available on
https://github.com/posterllava/PosterLLaVA.