PosterCraft : Repenser la génération de posters esthétiques de haute qualité dans un cadre unifié
PosterCraft: Rethinking High-Quality Aesthetic Poster Generation in a Unified Framework
June 12, 2025
Auteurs: SiXiang Chen, Jianyu Lai, Jialin Gao, Tian Ye, Haoyu Chen, Hengyu Shi, Shitong Shao, Yunlong Lin, Song Fei, Zhaohu Xing, Yeying Jin, Junfeng Luo, Xiaoming Wei, Lei Zhu
cs.AI
Résumé
La génération d'affiches esthétiques est plus complexe que la création d'images de conception simples : elle nécessite non seulement un rendu de texte précis, mais aussi une intégration fluide de contenu artistique abstrait, de mises en page percutantes et d'une harmonie stylistique globale. Pour répondre à ce défi, nous proposons PosterCraft, un cadre unifié qui abandonne les pipelines modulaires antérieurs et les mises en page rigides prédéfinies, permettant au modèle d'explorer librement des compositions cohérentes et visuellement captivantes. PosterCraft utilise un workflow en cascade soigneusement conçu pour optimiser la génération d'affiches à haute valeur esthétique : (i) optimisation à grande échelle du rendu de texte sur notre nouveau jeu de données Text-Render-2M ; (ii) fine-tuning supervisé prenant en compte les régions sur HQ-Poster100K ; (iii) apprentissage par renforcement esthétique-textuel via une optimisation des préférences best-of-n ; et (iv) raffinement conjoint par feedback vision-langage. Chaque étape est soutenue par un pipeline de construction de données entièrement automatisé adapté à ses besoins spécifiques, permettant un entraînement robuste sans modifications architecturales complexes. Évalué sur plusieurs expériences, PosterCraft surpasse significativement les bases de référence open-source en termes de précision de rendu, de cohérence de mise en page et d'attrait visuel global, approchant la qualité des systèmes commerciaux de pointe (SOTA). Notre code, modèles et jeux de données sont disponibles sur la page du projet : https://ephemeral182.github.io/PosterCraft.
English
Generating aesthetic posters is more challenging than simple design images:
it requires not only precise text rendering but also the seamless integration
of abstract artistic content, striking layouts, and overall stylistic harmony.
To address this, we propose PosterCraft, a unified framework that abandons
prior modular pipelines and rigid, predefined layouts, allowing the model to
freely explore coherent, visually compelling compositions. PosterCraft employs
a carefully designed, cascaded workflow to optimize the generation of
high-aesthetic posters: (i) large-scale text-rendering optimization on our
newly introduced Text-Render-2M dataset; (ii) region-aware supervised
fine-tuning on HQ-Poster100K; (iii) aesthetic-text-reinforcement learning via
best-of-n preference optimization; and (iv) joint vision-language feedback
refinement. Each stage is supported by a fully automated data-construction
pipeline tailored to its specific needs, enabling robust training without
complex architectural modifications. Evaluated on multiple experiments,
PosterCraft significantly outperforms open-source baselines in rendering
accuracy, layout coherence, and overall visual appeal-approaching the quality
of SOTA commercial systems. Our code, models, and datasets can be found in the
Project page: https://ephemeral182.github.io/PosterCraft