ChatPaper.aiChatPaper

PosterCraft: Repensando a Geração de Pôsteres Estéticos de Alta Qualidade em um Framework Unificado

PosterCraft: Rethinking High-Quality Aesthetic Poster Generation in a Unified Framework

June 12, 2025
Autores: SiXiang Chen, Jianyu Lai, Jialin Gao, Tian Ye, Haoyu Chen, Hengyu Shi, Shitong Shao, Yunlong Lin, Song Fei, Zhaohu Xing, Yeying Jin, Junfeng Luo, Xiaoming Wei, Lei Zhu
cs.AI

Resumo

Gerar pôsteres esteticamente agradáveis é mais desafiador do que criar imagens de design simples: exige não apenas a renderização precisa de texto, mas também a integração harmoniosa de conteúdo artístico abstrato, layouts impactantes e harmonia estilística geral. Para abordar isso, propomos o PosterCraft, um framework unificado que abandona pipelines modulares anteriores e layouts rígidos predefinidos, permitindo que o modelo explore livremente composições coesas e visualmente atraentes. O PosterCraft emprega um fluxo de trabalho em cascata cuidadosamente projetado para otimizar a geração de pôsteres de alta estética: (i) otimização de renderização de texto em larga escala em nosso novo conjunto de dados Text-Render-2M; (ii) ajuste fino supervisionado com consciência de região no HQ-Poster100K; (iii) reforço de aprendizado estético-textual via otimização de preferência best-of-n; e (iv) refinamento conjunto de feedback visão-linguagem. Cada etapa é suportada por um pipeline de construção de dados totalmente automatizado, personalizado para suas necessidades específicas, permitindo treinamento robusto sem modificações arquitetônicas complexas. Avaliado em múltiplos experimentos, o PosterCraft supera significativamente as baselines de código aberto em precisão de renderização, coerência de layout e apelo visual geral, aproximando-se da qualidade dos sistemas comerciais state-of-the-art (SOTA). Nosso código, modelos e conjuntos de dados podem ser encontrados na página do projeto: https://ephemeral182.github.io/PosterCraft
English
Generating aesthetic posters is more challenging than simple design images: it requires not only precise text rendering but also the seamless integration of abstract artistic content, striking layouts, and overall stylistic harmony. To address this, we propose PosterCraft, a unified framework that abandons prior modular pipelines and rigid, predefined layouts, allowing the model to freely explore coherent, visually compelling compositions. PosterCraft employs a carefully designed, cascaded workflow to optimize the generation of high-aesthetic posters: (i) large-scale text-rendering optimization on our newly introduced Text-Render-2M dataset; (ii) region-aware supervised fine-tuning on HQ-Poster100K; (iii) aesthetic-text-reinforcement learning via best-of-n preference optimization; and (iv) joint vision-language feedback refinement. Each stage is supported by a fully automated data-construction pipeline tailored to its specific needs, enabling robust training without complex architectural modifications. Evaluated on multiple experiments, PosterCraft significantly outperforms open-source baselines in rendering accuracy, layout coherence, and overall visual appeal-approaching the quality of SOTA commercial systems. Our code, models, and datasets can be found in the Project page: https://ephemeral182.github.io/PosterCraft
PDF183June 13, 2025