PosterCopilot: Rumo ao Raciocínio de Layout e Edição Controlável para Design Gráfico Profissional
PosterCopilot: Toward Layout Reasoning and Controllable Editing for Professional Graphic Design
December 3, 2025
Autores: Jiazhe Wei, Ken Li, Tianyu Lao, Haofan Wang, Liang Wang, Caifeng Shan, Chenyang Si
cs.AI
Resumo
O design gráfico constitui a base da comunicação visual moderna, servindo como um meio vital para a promoção de eventos culturais e comerciais. Avanços recentes têm explorado a automação deste processo usando Modelos Multimodais de Grande Escala (LMMs), contudo, os métodos existentes frequentemente produzem layouts geometricamente imprecisos e carecem da capacidade de edição iterativa e específica por camada necessária em fluxos de trabalho profissionais. Para superar estas limitações, apresentamos o PosterCopilot, uma estrutura que avança o raciocínio de layout e a edição controlável para o design gráfico profissional. Especificamente, introduzimos uma estratégia de treinamento progressiva em três etapas que capacita os LMMs com compreensão geométrica e raciocínio estético para o design de layout, consistindo em: Ajuste Fino Supervisionado com Perturbação, Aprendizagem por Reforço para Alinhamento com a Realidade Visual e Aprendizagem por Reforço a partir de *Feedback* Estético. Adicionalmente, desenvolvemos um fluxo de trabalho completo que acopla o modelo de design baseado em LMM treinado com modelos generativos, permitindo uma edição iterativa e controlável por camada para o refinamento preciso de elementos, mantendo ao mesmo tempo a consistência visual global. Experimentos extensivos demonstram que o PosterCopilot alcança layouts geometricamente precisos e esteticamente superiores, oferecendo uma controlabilidade sem precedentes para o design iterativo profissional.
English
Graphic design forms the cornerstone of modern visual communication, serving as a vital medium for promoting cultural and commercial events. Recent advances have explored automating this process using Large Multimodal Models (LMMs), yet existing methods often produce geometrically inaccurate layouts and lack the iterative, layer-specific editing required in professional workflows. To address these limitations, we present PosterCopilot, a framework that advances layout reasoning and controllable editing for professional graphic design. Specifically, we introduce a progressive three-stage training strategy that equips LMMs with geometric understanding and aesthetic reasoning for layout design, consisting of Perturbed Supervised Fine-Tuning, Reinforcement Learning for Visual-Reality Alignment, and Reinforcement Learning from Aesthetic Feedback. Furthermore, we develop a complete workflow that couples the trained LMM-based design model with generative models, enabling layer-controllable, iterative editing for precise element refinement while maintaining global visual consistency. Extensive experiments demonstrate that PosterCopilot achieves geometrically accurate and aesthetically superior layouts, offering unprecedented controllability for professional iterative design.