ChatPaper.aiChatPaper

PosterCraft:統一フレームワークにおける高品質な美的ポスター生成の再考

PosterCraft: Rethinking High-Quality Aesthetic Poster Generation in a Unified Framework

June 12, 2025
著者: SiXiang Chen, Jianyu Lai, Jialin Gao, Tian Ye, Haoyu Chen, Hengyu Shi, Shitong Shao, Yunlong Lin, Song Fei, Zhaohu Xing, Yeying Jin, Junfeng Luo, Xiaoming Wei, Lei Zhu
cs.AI

要旨

美的なポスターの生成は、単純なデザイン画像よりもはるかに困難な課題です。正確なテキストレンダリングだけでなく、抽象的な芸術的コンテンツ、印象的なレイアウト、全体的なスタイルの調和をシームレスに統合する必要があります。この課題に対処するため、我々はPosterCraftを提案します。これは、従来のモジュール型パイプラインや固定された事前定義レイアウトを放棄し、モデルが一貫性のある視覚的に魅力的な構成を自由に探求できる統一フレームワークです。PosterCraftは、高品質なポスターの生成を最適化するために、慎重に設計されたカスケード型ワークフローを採用しています:(i) 新たに導入したText-Render-2Mデータセットでの大規模テキストレンダリング最適化、(ii) HQ-Poster100Kでの領域認識型教師ありファインチューニング、(iii) best-of-n選好最適化による美的テキスト強化学習、(iv) 視覚と言語の共同フィードバックによる精緻化。各段階は、その特定のニーズに合わせた完全自動化されたデータ構築パイプラインによってサポートされており、複雑なアーキテクチャ変更なしに堅牢なトレーニングを可能にします。複数の実験で評価された結果、PosterCraftは、レンダリング精度、レイアウトの一貫性、全体的な視覚的魅力において、オープンソースのベースラインを大幅に上回り、最先端の商用システムの品質に近づいています。我々のコード、モデル、データセットはプロジェクトページ(https://ephemeral182.github.io/PosterCraft)で公開されています。
English
Generating aesthetic posters is more challenging than simple design images: it requires not only precise text rendering but also the seamless integration of abstract artistic content, striking layouts, and overall stylistic harmony. To address this, we propose PosterCraft, a unified framework that abandons prior modular pipelines and rigid, predefined layouts, allowing the model to freely explore coherent, visually compelling compositions. PosterCraft employs a carefully designed, cascaded workflow to optimize the generation of high-aesthetic posters: (i) large-scale text-rendering optimization on our newly introduced Text-Render-2M dataset; (ii) region-aware supervised fine-tuning on HQ-Poster100K; (iii) aesthetic-text-reinforcement learning via best-of-n preference optimization; and (iv) joint vision-language feedback refinement. Each stage is supported by a fully automated data-construction pipeline tailored to its specific needs, enabling robust training without complex architectural modifications. Evaluated on multiple experiments, PosterCraft significantly outperforms open-source baselines in rendering accuracy, layout coherence, and overall visual appeal-approaching the quality of SOTA commercial systems. Our code, models, and datasets can be found in the Project page: https://ephemeral182.github.io/PosterCraft
PDF173June 13, 2025