PosterCopilot : Vers un raisonnement sur la mise en page et une édition contrôlable pour la conception graphique professionnelle
PosterCopilot: Toward Layout Reasoning and Controllable Editing for Professional Graphic Design
December 3, 2025
papers.authors: Jiazhe Wei, Ken Li, Tianyu Lao, Haofan Wang, Liang Wang, Caifeng Shan, Chenyang Si
cs.AI
papers.abstract
La conception graphique constitue la pierre angulaire de la communication visuelle moderne, servant de médium essentiel à la promotion d'événements culturels et commerciaux. Des avancées récentes ont exploré l'automatisation de ce processus à l'aide de modèles multimodaux de grande taille (LMM), mais les méthodes existantes produisent souvent des mises en page géométriquement inexactes et manquent de capacités d'édition itératives et spécifiques aux calques nécessaires aux flux de travail professionnels. Pour résoudre ces limitations, nous présentons PosterCopilot, un cadre qui fait progresser le raisonnement spatial et l'édition contrôlable pour la conception graphique professionnelle. Spécifiquement, nous introduisons une stratégie d'entraînement progressive en trois étapes dotant les LMM de compréhension géométrique et de raisonnement esthétique pour la conception de mises en page, comprenant : le Fine-Tuning Supervisé Perturbé, l'Apprentissage par Renforcement pour l'Alignement Visuel-Réalité, et l'Apprentissage par Renforcement à partir de Retours Esthétiques. De plus, nous développons un flux de travail complet couplant le modèle de conception basé sur LMM entraîné avec des modèles génératifs, permettant une édition itérative contrôlable par calques pour un affinage précis des éléments tout en préservant la cohérence visuelle globale. Des expérimentations approfondies démontrent que PosterCopilot produit des mises en page géométriquement précises et esthétiquement supérieures, offrant une contrôlabilité sans précédent pour la conception itérative professionnelle.
English
Graphic design forms the cornerstone of modern visual communication, serving as a vital medium for promoting cultural and commercial events. Recent advances have explored automating this process using Large Multimodal Models (LMMs), yet existing methods often produce geometrically inaccurate layouts and lack the iterative, layer-specific editing required in professional workflows. To address these limitations, we present PosterCopilot, a framework that advances layout reasoning and controllable editing for professional graphic design. Specifically, we introduce a progressive three-stage training strategy that equips LMMs with geometric understanding and aesthetic reasoning for layout design, consisting of Perturbed Supervised Fine-Tuning, Reinforcement Learning for Visual-Reality Alignment, and Reinforcement Learning from Aesthetic Feedback. Furthermore, we develop a complete workflow that couples the trained LMM-based design model with generative models, enabling layer-controllable, iterative editing for precise element refinement while maintaining global visual consistency. Extensive experiments demonstrate that PosterCopilot achieves geometrically accurate and aesthetically superior layouts, offering unprecedented controllability for professional iterative design.