PosterCraft: Repensando a Geração de Pôsteres Estéticos de Alta Qualidade em um Framework Unificado
PosterCraft: Rethinking High-Quality Aesthetic Poster Generation in a Unified Framework
June 12, 2025
Autores: SiXiang Chen, Jianyu Lai, Jialin Gao, Tian Ye, Haoyu Chen, Hengyu Shi, Shitong Shao, Yunlong Lin, Song Fei, Zhaohu Xing, Yeying Jin, Junfeng Luo, Xiaoming Wei, Lei Zhu
cs.AI
Resumo
Gerar pôsteres esteticamente agradáveis é mais desafiador do que criar imagens de design simples:
exige não apenas a renderização precisa de texto, mas também a integração harmoniosa de conteúdo
artístico abstrato, layouts impactantes e harmonia estilística geral. Para abordar isso, propomos o
PosterCraft, um framework unificado que abandona pipelines modulares anteriores e layouts rígidos
predefinidos, permitindo que o modelo explore livremente composições coesas e visualmente
atraentes. O PosterCraft emprega um fluxo de trabalho em cascata cuidadosamente projetado para
otimizar a geração de pôsteres de alta estética: (i) otimização de renderização de texto em larga
escala em nosso novo conjunto de dados Text-Render-2M; (ii) ajuste fino supervisionado com
consciência de região no HQ-Poster100K; (iii) reforço de aprendizado estético-textual via
otimização de preferência best-of-n; e (iv) refinamento conjunto de feedback visão-linguagem.
Cada etapa é suportada por um pipeline de construção de dados totalmente automatizado,
personalizado para suas necessidades específicas, permitindo treinamento robusto sem modificações
arquitetônicas complexas. Avaliado em múltiplos experimentos, o PosterCraft supera significativamente
as baselines de código aberto em precisão de renderização, coerência de layout e apelo visual geral,
aproximando-se da qualidade dos sistemas comerciais state-of-the-art (SOTA). Nosso código, modelos
e conjuntos de dados podem ser encontrados na página do projeto:
https://ephemeral182.github.io/PosterCraft
English
Generating aesthetic posters is more challenging than simple design images:
it requires not only precise text rendering but also the seamless integration
of abstract artistic content, striking layouts, and overall stylistic harmony.
To address this, we propose PosterCraft, a unified framework that abandons
prior modular pipelines and rigid, predefined layouts, allowing the model to
freely explore coherent, visually compelling compositions. PosterCraft employs
a carefully designed, cascaded workflow to optimize the generation of
high-aesthetic posters: (i) large-scale text-rendering optimization on our
newly introduced Text-Render-2M dataset; (ii) region-aware supervised
fine-tuning on HQ-Poster100K; (iii) aesthetic-text-reinforcement learning via
best-of-n preference optimization; and (iv) joint vision-language feedback
refinement. Each stage is supported by a fully automated data-construction
pipeline tailored to its specific needs, enabling robust training without
complex architectural modifications. Evaluated on multiple experiments,
PosterCraft significantly outperforms open-source baselines in rendering
accuracy, layout coherence, and overall visual appeal-approaching the quality
of SOTA commercial systems. Our code, models, and datasets can be found in the
Project page: https://ephemeral182.github.io/PosterCraft