PosterCraft:統一フレームワークにおける高品質な美的ポスター生成の再考
PosterCraft: Rethinking High-Quality Aesthetic Poster Generation in a Unified Framework
June 12, 2025
著者: SiXiang Chen, Jianyu Lai, Jialin Gao, Tian Ye, Haoyu Chen, Hengyu Shi, Shitong Shao, Yunlong Lin, Song Fei, Zhaohu Xing, Yeying Jin, Junfeng Luo, Xiaoming Wei, Lei Zhu
cs.AI
要旨
美的なポスターの生成は、単純なデザイン画像よりもはるかに困難な課題です。正確なテキストレンダリングだけでなく、抽象的な芸術的コンテンツ、印象的なレイアウト、全体的なスタイルの調和をシームレスに統合する必要があります。この課題に対処するため、我々はPosterCraftを提案します。これは、従来のモジュール型パイプラインや固定された事前定義レイアウトを放棄し、モデルが一貫性のある視覚的に魅力的な構成を自由に探求できる統一フレームワークです。PosterCraftは、高品質なポスターの生成を最適化するために、慎重に設計されたカスケード型ワークフローを採用しています:(i) 新たに導入したText-Render-2Mデータセットでの大規模テキストレンダリング最適化、(ii) HQ-Poster100Kでの領域認識型教師ありファインチューニング、(iii) best-of-n選好最適化による美的テキスト強化学習、(iv) 視覚と言語の共同フィードバックによる精緻化。各段階は、その特定のニーズに合わせた完全自動化されたデータ構築パイプラインによってサポートされており、複雑なアーキテクチャ変更なしに堅牢なトレーニングを可能にします。複数の実験で評価された結果、PosterCraftは、レンダリング精度、レイアウトの一貫性、全体的な視覚的魅力において、オープンソースのベースラインを大幅に上回り、最先端の商用システムの品質に近づいています。我々のコード、モデル、データセットはプロジェクトページ(https://ephemeral182.github.io/PosterCraft)で公開されています。
English
Generating aesthetic posters is more challenging than simple design images:
it requires not only precise text rendering but also the seamless integration
of abstract artistic content, striking layouts, and overall stylistic harmony.
To address this, we propose PosterCraft, a unified framework that abandons
prior modular pipelines and rigid, predefined layouts, allowing the model to
freely explore coherent, visually compelling compositions. PosterCraft employs
a carefully designed, cascaded workflow to optimize the generation of
high-aesthetic posters: (i) large-scale text-rendering optimization on our
newly introduced Text-Render-2M dataset; (ii) region-aware supervised
fine-tuning on HQ-Poster100K; (iii) aesthetic-text-reinforcement learning via
best-of-n preference optimization; and (iv) joint vision-language feedback
refinement. Each stage is supported by a fully automated data-construction
pipeline tailored to its specific needs, enabling robust training without
complex architectural modifications. Evaluated on multiple experiments,
PosterCraft significantly outperforms open-source baselines in rendering
accuracy, layout coherence, and overall visual appeal-approaching the quality
of SOTA commercial systems. Our code, models, and datasets can be found in the
Project page: https://ephemeral182.github.io/PosterCraft