ChatPaper.aiChatPaper

PosterLLaVa: Construyendo un Generador Unificado de Diseños Multi-modales con LLM

PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM

June 5, 2024
Autores: Tao Yang, Yingmin Luo, Zhongang Qi, Yang Wu, Ying Shan, Chang Wen Chen
cs.AI

Resumen

La generación de diseños es la piedra angular para lograr el diseño gráfico automatizado, lo que requiere organizar la posición y el tamaño de diversos elementos de diseño multimodal de manera visualmente atractiva y que siga restricciones. Los enfoques anteriores son ineficientes para aplicaciones a gran escala o carecen de flexibilidad para adaptarse a diversos requisitos de diseño. Nuestra investigación introduce un marco unificado para la generación automatizada de diseños gráficos, aprovechando el modelo de lenguaje multimodal de gran escala (MLLM) para acomodar diversas tareas de diseño. En contraste, nuestro método basado en datos emplea texto estructurado (formato JSON) y ajuste de instrucciones visuales para generar diseños bajo restricciones visuales y textuales específicas, incluyendo especificaciones en lenguaje natural definidas por el usuario. Realizamos experimentos extensivos y logramos un rendimiento de vanguardia (SOTA) en benchmarks públicos de generación de diseños multimodales, demostrando la efectividad de nuestro método. Además, reconociendo las limitaciones de los conjuntos de datos existentes para capturar la complejidad de los diseños gráficos del mundo real, proponemos dos nuevos conjuntos de datos para tareas mucho más desafiantes (generación con restricciones de usuario y carteles complicados), validando aún más la utilidad de nuestro modelo en entornos de la vida real. Destacando por su accesibilidad y adaptabilidad superiores, este enfoque automatiza aún más las tareas de diseño gráfico a gran escala. El código y los conjuntos de datos estarán disponibles públicamente en https://github.com/posterllava/PosterLLaVA.
English
Layout generation is the keystone in achieving automated graphic design, requiring arranging the position and size of various multi-modal design elements in a visually pleasing and constraint-following manner. Previous approaches are either inefficient for large-scale applications or lack flexibility for varying design requirements. Our research introduces a unified framework for automated graphic layout generation, leveraging the multi-modal large language model (MLLM) to accommodate diverse design tasks. In contrast, our data-driven method employs structured text (JSON format) and visual instruction tuning to generate layouts under specific visual and textual constraints, including user-defined natural language specifications. We conducted extensive experiments and achieved state-of-the-art (SOTA) performance on public multi-modal layout generation benchmarks, demonstrating the effectiveness of our method. Moreover, recognizing existing datasets' limitations in capturing the complexity of real-world graphic designs, we propose two new datasets for much more challenging tasks (user-constrained generation and complicated poster), further validating our model's utility in real-life settings. Marking by its superior accessibility and adaptability, this approach further automates large-scale graphic design tasks. The code and datasets will be publicly available on https://github.com/posterllava/PosterLLaVA.

Summary

AI-Generated Summary

PDF182December 12, 2024