CGB-DM : Génération de mise en page équilibrée en contenu et graphisme avec un modèle de diffusion basé sur les Transformers
CGB-DM: Content and Graphic Balance Layout Generation with Transformer-based Diffusion Model
July 21, 2024
Auteurs: Yu Li, Yifan Chen, Gongye Liu, Jie Wu, Yujiu Yang
cs.AI
Résumé
La génération de mise en page est la tâche fondamentale de la conception intelligente, qui nécessite l'intégration de l'esthétique visuelle et l'expression harmonieuse de la diffusion du contenu. Cependant, les méthodes existantes rencontrent encore des difficultés pour générer des mises en page précises et visuellement attrayantes, notamment des problèmes de blocage, de chevauchement ou de désalignement spatial entre les mises en page, qui sont étroitement liés à la structure spatiale des mises en page graphiques. Nous constatons que ces méthodes se concentrent excessivement sur les informations de contenu et manquent de contraintes sur la structure spatiale de la mise en page, ce qui entraîne un déséquilibre dans l'apprentissage des caractéristiques sensibles au contenu et à la graphique. Pour résoudre ce problème, nous proposons la génération de mise en page équilibrée entre contenu et graphique avec un modèle de diffusion basé sur un transformateur (CGB-DM). Plus précisément, nous concevons d'abord un régulateur qui équilibre le poids prédit du contenu et de la graphique, surmontant ainsi la tendance à accorder plus d'attention au contenu sur la toile. Ensuite, nous introduisons une contrainte graphique de boîte englobante de saillance pour renforcer davantage l'alignement des caractéristiques géométriques entre les représentations de mise en page et les images. De plus, nous adaptons un modèle de diffusion basé sur un transformateur comme architecture principale, dont la puissante capacité de génération garantit la qualité de la génération de mise en page. Les résultats expérimentaux approfondis indiquent que notre méthode a atteint des performances de pointe dans les évaluations quantitatives et qualitatives. Notre cadre de modèle peut également être étendu à d'autres domaines de conception graphique.
English
Layout generation is the foundation task of intelligent design, which
requires the integration of visual aesthetics and harmonious expression of
content delivery. However, existing methods still face challenges in generating
precise and visually appealing layouts, including blocking, overlap, or spatial
misalignment between layouts, which are closely related to the spatial
structure of graphic layouts. We find that these methods overly focus on
content information and lack constraints on layout spatial structure, resulting
in an imbalance of learning content-aware and graphic-aware features. To tackle
this issue, we propose Content and Graphic Balance Layout Generation with
Transformer-based Diffusion Model (CGB-DM). Specifically, we first design a
regulator that balances the predicted content and graphic weight, overcoming
the tendency of paying more attention to the content on canvas. Secondly, we
introduce a graphic constraint of saliency bounding box to further enhance the
alignment of geometric features between layout representations and images. In
addition, we adapt a transformer-based diffusion model as the backbone, whose
powerful generation capability ensures the quality in layout generation.
Extensive experimental results indicate that our method has achieved
state-of-the-art performance in both quantitative and qualitative evaluations.
Our model framework can also be expanded to other graphic design fields.Summary
AI-Generated Summary