ChatPaper.aiChatPaper

PosterLLaVa : Construction d'un générateur de mise en page multimodale unifié avec un LLM

PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM

June 5, 2024
Auteurs: Tao Yang, Yingmin Luo, Zhongang Qi, Yang Wu, Ying Shan, Chang Wen Chen
cs.AI

Résumé

La génération de mise en page est la pierre angulaire pour atteindre la conception graphique automatisée, nécessitant l'arrangement de la position et de la taille de divers éléments de conception multimodaux de manière visuellement agréable et respectueuse des contraintes. Les approches précédentes sont soit inefficaces pour les applications à grande échelle, soit manquent de flexibilité pour répondre à des exigences de conception variées. Notre recherche introduit un cadre unifié pour la génération automatisée de mises en page graphiques, exploitant le modèle de langage multimodal à grande échelle (MLLM) pour s'adapter à diverses tâches de conception. En revanche, notre méthode basée sur les données utilise du texte structuré (format JSON) et un réglage par instructions visuelles pour générer des mises en page sous des contraintes visuelles et textuelles spécifiques, y compris des spécifications en langage naturel définies par l'utilisateur. Nous avons mené des expériences approfondies et obtenu des performances de pointe (SOTA) sur des benchmarks publics de génération de mises en page multimodales, démontrant l'efficacité de notre méthode. De plus, reconnaissant les limites des ensembles de données existants pour capturer la complexité des conceptions graphiques du monde réel, nous proposons deux nouveaux ensembles de données pour des tâches bien plus difficiles (génération contrainte par l'utilisateur et affiche complexe), validant davantage l'utilité de notre modèle dans des contextes réels. Marquée par sa supériorité en termes d'accessibilité et d'adaptabilité, cette approche automatise davantage les tâches de conception graphique à grande échelle. Le code et les ensembles de données seront disponibles publiquement sur https://github.com/posterllava/PosterLLaVA.
English
Layout generation is the keystone in achieving automated graphic design, requiring arranging the position and size of various multi-modal design elements in a visually pleasing and constraint-following manner. Previous approaches are either inefficient for large-scale applications or lack flexibility for varying design requirements. Our research introduces a unified framework for automated graphic layout generation, leveraging the multi-modal large language model (MLLM) to accommodate diverse design tasks. In contrast, our data-driven method employs structured text (JSON format) and visual instruction tuning to generate layouts under specific visual and textual constraints, including user-defined natural language specifications. We conducted extensive experiments and achieved state-of-the-art (SOTA) performance on public multi-modal layout generation benchmarks, demonstrating the effectiveness of our method. Moreover, recognizing existing datasets' limitations in capturing the complexity of real-world graphic designs, we propose two new datasets for much more challenging tasks (user-constrained generation and complicated poster), further validating our model's utility in real-life settings. Marking by its superior accessibility and adaptability, this approach further automates large-scale graphic design tasks. The code and datasets will be publicly available on https://github.com/posterllava/PosterLLaVA.

Summary

AI-Generated Summary

PDF182December 12, 2024