PosterCopilot: в сторону логического построения макета и контролируемого редактирования для профессионального графического дизайна
PosterCopilot: Toward Layout Reasoning and Controllable Editing for Professional Graphic Design
December 3, 2025
Авторы: Jiazhe Wei, Ken Li, Tianyu Lao, Haofan Wang, Liang Wang, Caifeng Shan, Chenyang Si
cs.AI
Аннотация
Графический дизайн является краеугольным камнем современной визуальной коммуникации, выступая важным средством продвижения культурных и коммерческих мероприятий. Последние достижения исследуют автоматизацию этого процесса с использованием больших мультимодальных моделей (LMM), однако существующие методы часто создают геометрически неточные макеты и не обеспечивают итеративного поэлементного редактирования, необходимого в профессиональных рабочих процессах. Для преодоления этих ограничений мы представляем PosterCopilot — фреймворк, развивающий логику компоновки и контролируемое редактирование для профессионального графического дизайна. В частности, мы предлагаем прогрессивную трехэтапную стратегию обучения, которая оснащает LMM геометрическим пониманием и эстетическим мышлением для проектирования макетов, включающую контролируемую тонкую настройку с возмущениями, обучение с подкреплением для согласования с визуальной реальностью и обучение с подкреплением на основе эстетической обратной связи. Кроме того, мы разрабатываем полный рабочий процесс, объединяющий обученную дизайн-модель на основе LMM с генеративными моделями, что позволяет осуществлять контролируемое по слоям итеративное редактирование для точной доработки элементов при сохранении глобальной визуальной согласованности. Многочисленные эксперименты демонстрируют, что PosterCopilot достигает геометрически точных и эстетически превосходных макетов, обеспечивая беспрецедентную управляемость для профессионального итеративного дизайна.
English
Graphic design forms the cornerstone of modern visual communication, serving as a vital medium for promoting cultural and commercial events. Recent advances have explored automating this process using Large Multimodal Models (LMMs), yet existing methods often produce geometrically inaccurate layouts and lack the iterative, layer-specific editing required in professional workflows. To address these limitations, we present PosterCopilot, a framework that advances layout reasoning and controllable editing for professional graphic design. Specifically, we introduce a progressive three-stage training strategy that equips LMMs with geometric understanding and aesthetic reasoning for layout design, consisting of Perturbed Supervised Fine-Tuning, Reinforcement Learning for Visual-Reality Alignment, and Reinforcement Learning from Aesthetic Feedback. Furthermore, we develop a complete workflow that couples the trained LMM-based design model with generative models, enabling layer-controllable, iterative editing for precise element refinement while maintaining global visual consistency. Extensive experiments demonstrate that PosterCopilot achieves geometrically accurate and aesthetically superior layouts, offering unprecedented controllability for professional iterative design.