PosterCopilot:プロフェッショナルなグラフィックデザインにおけるレイアウト推論と制御可能な編集を目指して
PosterCopilot: Toward Layout Reasoning and Controllable Editing for Professional Graphic Design
December 3, 2025
著者: Jiazhe Wei, Ken Li, Tianyu Lao, Haofan Wang, Liang Wang, Caifeng Shan, Chenyang Si
cs.AI
要旨
グラフィックデザインは、現代の視覚的コミュニケーションの基盤を形成し、文化的・商業的イベントを促進する重要な媒体として機能している。近年の進展では大規模マルチモーダルモデル(LMM)を用いたこのプロセスの自動化が探求されているが、既存手法では幾何学的に不正確なレイアウトが生成されたり、専門的なワークフローで必要とされる反復的でレイヤー固有の編集機能が欠如したりする場合が多い。これらの課題を解決するため、我々は専門的なグラフィックデザインのためのレイアウト推論と制御可能な編集を推進するフレームワーク「PosterCopilot」を提案する。具体的には、レイアウト設計における幾何学的理解と美的推論をLMMに習得させるための段階的な3段階学習戦略を導入する。これは、摂動付き教師ありファインチューニング、視覚的現実への整合性を目的とした強化学習、および美的フィードバックからの強化学習から構成される。さらに、学習済みのLMMベースのデザインモデルと生成モデルを連携させる完全なワークフローを開発し、大域的な視覚的一貫性を維持しつつ、精密な要素調整のためのレイアウト制御可能な反復的編集を実現する。大規模な実験により、PosterCopilotが幾何学的に正確で美的に優れたレイアウトを達成し、専門的な反復設計に前例のない制御性を提供することが実証された。
English
Graphic design forms the cornerstone of modern visual communication, serving as a vital medium for promoting cultural and commercial events. Recent advances have explored automating this process using Large Multimodal Models (LMMs), yet existing methods often produce geometrically inaccurate layouts and lack the iterative, layer-specific editing required in professional workflows. To address these limitations, we present PosterCopilot, a framework that advances layout reasoning and controllable editing for professional graphic design. Specifically, we introduce a progressive three-stage training strategy that equips LMMs with geometric understanding and aesthetic reasoning for layout design, consisting of Perturbed Supervised Fine-Tuning, Reinforcement Learning for Visual-Reality Alignment, and Reinforcement Learning from Aesthetic Feedback. Furthermore, we develop a complete workflow that couples the trained LMM-based design model with generative models, enabling layer-controllable, iterative editing for precise element refinement while maintaining global visual consistency. Extensive experiments demonstrate that PosterCopilot achieves geometrically accurate and aesthetically superior layouts, offering unprecedented controllability for professional iterative design.