PosterCopilot: Op weg naar lay-outredenering en beheerbare bewerking voor professioneel grafisch ontwerp
PosterCopilot: Toward Layout Reasoning and Controllable Editing for Professional Graphic Design
December 3, 2025
Auteurs: Jiazhe Wei, Ken Li, Tianyu Lao, Haofan Wang, Liang Wang, Caifeng Shan, Chenyang Si
cs.AI
Samenvatting
Grafisch ontwerp vormt de hoeksteen van moderne visuele communicatie en dient als een cruciaal medium voor het promoten van culturele en commerciële evenementen. Recente vooruitgang heeft de automatisering van dit proces met behulp van Large Multimodal Models (LMM's) onderzocht, maar bestaande methoden produceren vaak geometrisch onnauwkeurige lay-outs en missen de iteratieve, laagspecifieke bewerking die vereist is in professionele workflows. Om deze beperkingen aan te pakken, presenteren wij PosterCopilot, een raamwerk dat lay-outredenering en controleerbare bewerking voor professioneel grafisch ontwerp bevordert. Specifiek introduceren we een progressieve drietraps trainingsstrategie die LMM's voorziet van geometrisch inzicht en esthetische redeneervaardigheden voor lay-outontwerp, bestaande uit Perturbed Supervised Fine-Tuning, Reinforcement Learning voor Visueel-Realiteitsafstemming, en Reinforcement Learning vanuit Esthetische Feedback. Verder ontwikkelen we een complete workflow die het getrainde LMM-gebaseerde ontwerpmodel koppelt aan generatieve modellen, waardoor laag-controleerbare, iteratieve bewerking mogelijk wordt voor precieze elementverfijning met behoud van globale visuele consistentie. Uitgebreide experimenten tonen aan dat PosterCopilot geometrisch nauwkeurige en esthetisch superieure lay-outs bereikt, en ongekende controleerbaarheid biedt voor professioneel iteratief ontwerp.
English
Graphic design forms the cornerstone of modern visual communication, serving as a vital medium for promoting cultural and commercial events. Recent advances have explored automating this process using Large Multimodal Models (LMMs), yet existing methods often produce geometrically inaccurate layouts and lack the iterative, layer-specific editing required in professional workflows. To address these limitations, we present PosterCopilot, a framework that advances layout reasoning and controllable editing for professional graphic design. Specifically, we introduce a progressive three-stage training strategy that equips LMMs with geometric understanding and aesthetic reasoning for layout design, consisting of Perturbed Supervised Fine-Tuning, Reinforcement Learning for Visual-Reality Alignment, and Reinforcement Learning from Aesthetic Feedback. Furthermore, we develop a complete workflow that couples the trained LMM-based design model with generative models, enabling layer-controllable, iterative editing for precise element refinement while maintaining global visual consistency. Extensive experiments demonstrate that PosterCopilot achieves geometrically accurate and aesthetically superior layouts, offering unprecedented controllability for professional iterative design.