ChatPaper.aiChatPaper

PosterCopilot: Hacia el Razonamiento de Diseño y la Edición Controlable para el Diseño Gráfico Profesional

PosterCopilot: Toward Layout Reasoning and Controllable Editing for Professional Graphic Design

December 3, 2025
Autores: Jiazhe Wei, Ken Li, Tianyu Lao, Haofan Wang, Liang Wang, Caifeng Shan, Chenyang Si
cs.AI

Resumen

El diseño gráfico constituye la piedra angular de la comunicación visual moderna, sirviendo como un medio vital para promover eventos culturales y comerciales. Los avances recientes han explorado la automatización de este proceso utilizando Modelos Multimodales Grandes (LMMs), aunque los métodos existentes a menudo producen diseños geométricamente inexactos y carecen de la edición iterativa y específica por capas requerida en los flujos de trabajo profesionales. Para abordar estas limitaciones, presentamos PosterCopilot, un marco que avanza en el razonamiento de diseño y la edición controlable para el diseño gráfico profesional. Específicamente, introducimos una estrategia de entrenamiento progresiva de tres etapas que dota a los LMMs de comprensión geométrica y razonamiento estético para el diseño de layouts, consistente en: Fine-Tuning Supervisado Perturbado, Aprendizaje por Refuerzo para la Alineación Visual-Realidad y Aprendizaje por Refuerzo a partir de Retroalimentación Estética. Además, desarrollamos un flujo de trabajo completo que acopla el modelo de diseño basado en LMM entrenado con modelos generativos, permitiendo una edición iterativa y controlable por capas para el refinamiento preciso de elementos mientras se mantiene la coherencia visual global. Experimentos exhaustivos demuestran que PosterCopilot logra diseños geométricamente precisos y estéticamente superiores, ofreciendo una controlabilidad sin precedentes para el diseño iterativo profesional.
English
Graphic design forms the cornerstone of modern visual communication, serving as a vital medium for promoting cultural and commercial events. Recent advances have explored automating this process using Large Multimodal Models (LMMs), yet existing methods often produce geometrically inaccurate layouts and lack the iterative, layer-specific editing required in professional workflows. To address these limitations, we present PosterCopilot, a framework that advances layout reasoning and controllable editing for professional graphic design. Specifically, we introduce a progressive three-stage training strategy that equips LMMs with geometric understanding and aesthetic reasoning for layout design, consisting of Perturbed Supervised Fine-Tuning, Reinforcement Learning for Visual-Reality Alignment, and Reinforcement Learning from Aesthetic Feedback. Furthermore, we develop a complete workflow that couples the trained LMM-based design model with generative models, enabling layer-controllable, iterative editing for precise element refinement while maintaining global visual consistency. Extensive experiments demonstrate that PosterCopilot achieves geometrically accurate and aesthetically superior layouts, offering unprecedented controllability for professional iterative design.
PDF01December 5, 2025