ChatPaper.aiChatPaper

PosterCopilot: Auf dem Weg zu Layout-Argumentation und steuerbarer Bearbeitung für professionelles Grafikdesign

PosterCopilot: Toward Layout Reasoning and Controllable Editing for Professional Graphic Design

December 3, 2025
papers.authors: Jiazhe Wei, Ken Li, Tianyu Lao, Haofan Wang, Liang Wang, Caifeng Shan, Chenyang Si
cs.AI

papers.abstract

Grafikdesign bildet das Fundament der modernen visuellen Kommunikation und dient als wichtiges Medium zur Förderung kultureller und kommerzieller Veranstaltungen. Jüngste Fortschritte haben die Automatisierung dieses Prozesses mit Hilfe großer multimodaler Modelle (LMMs) untersucht, doch bestehende Methoden erzeugen oft geometrisch ungenaue Layouts und ermöglichen nicht die iterative, ebenenspezifische Bearbeitung, die in professionellen Workflows erforderlich ist. Um diese Einschränkungen zu adressieren, stellen wir PosterCopilot vor, ein Framework, das das Layout-Verständnis und die kontrollierbare Bearbeitung für professionelles Grafikdesign vorantreibt. Konkret führen wir eine progressive Drei-Stufen-Trainingsstrategie ein, die LMMs ein geometrisches Verständnis und ästhetische Urteilsfähigkeit für das Layout-Design vermittelt. Diese besteht aus überwachtem Feinabgleich mit Störungen, Reinforcement Learning zur visuell-realitätsbasierten Ausrichtung und Reinforcement Learning aus ästhetischem Feedback. Darüber hinaus entwickeln wir einen vollständigen Workflow, der das trainierte, auf LMM basierende Designmodell mit generativen Modellen koppelt. Dies ermöglicht eine ebenenkontrollierbare, iterative Bearbeitung zur präzisen Verfeinerung von Elementen bei gleichzeitiger Wahrung der globalen visuellen Konsistenz. Umfangreiche Experimente belegen, dass PosterCopilot geometrisch präzise und ästhetisch hochwertige Layouts erzielt und eine beispiellose Kontrollierbarkeit für professionelles iteratives Design bietet.
English
Graphic design forms the cornerstone of modern visual communication, serving as a vital medium for promoting cultural and commercial events. Recent advances have explored automating this process using Large Multimodal Models (LMMs), yet existing methods often produce geometrically inaccurate layouts and lack the iterative, layer-specific editing required in professional workflows. To address these limitations, we present PosterCopilot, a framework that advances layout reasoning and controllable editing for professional graphic design. Specifically, we introduce a progressive three-stage training strategy that equips LMMs with geometric understanding and aesthetic reasoning for layout design, consisting of Perturbed Supervised Fine-Tuning, Reinforcement Learning for Visual-Reality Alignment, and Reinforcement Learning from Aesthetic Feedback. Furthermore, we develop a complete workflow that couples the trained LMM-based design model with generative models, enabling layer-controllable, iterative editing for precise element refinement while maintaining global visual consistency. Extensive experiments demonstrate that PosterCopilot achieves geometrically accurate and aesthetically superior layouts, offering unprecedented controllability for professional iterative design.
PDF01December 5, 2025