PosterCraft: Ripensare la Generazione di Poster Estetici di Alta Qualità in un Framework Unificato
PosterCraft: Rethinking High-Quality Aesthetic Poster Generation in a Unified Framework
June 12, 2025
Autori: SiXiang Chen, Jianyu Lai, Jialin Gao, Tian Ye, Haoyu Chen, Hengyu Shi, Shitong Shao, Yunlong Lin, Song Fei, Zhaohu Xing, Yeying Jin, Junfeng Luo, Xiaoming Wei, Lei Zhu
cs.AI
Abstract
Generare poster estetici è più impegnativo rispetto alla creazione di semplici immagini di design: richiede non solo un rendering preciso del testo, ma anche l'integrazione senza soluzione di continuità di contenuti artistici astratti, layout accattivanti e un'armonia stilistica complessiva. Per affrontare questa sfida, proponiamo PosterCraft, un framework unificato che abbandona le precedenti pipeline modulari e i layout rigidi e predefiniti, consentendo al modello di esplorare liberamente composizioni coerenti e visivamente coinvolgenti. PosterCraft utilizza un flusso di lavoro a cascata attentamente progettato per ottimizzare la generazione di poster ad alta estetica: (i) ottimizzazione su larga scala del rendering del testo sul nostro nuovo dataset Text-Render-2M; (ii) fine-tuning supervisionato con consapevolezza regionale su HQ-Poster100K; (iii) rinforzo estetico del testo tramite ottimizzazione delle preferenze best-of-n; e (iv) affinamento congiunto tramite feedback visivo-linguistico. Ogni fase è supportata da una pipeline di costruzione dei dati completamente automatizzata, progettata per soddisfare le sue esigenze specifiche, consentendo un addestramento robusto senza complesse modifiche architetturali. Valutato in numerosi esperimenti, PosterCraft supera significativamente i benchmark open-source in termini di accuratezza del rendering, coerenza del layout e attrattiva visiva complessiva, avvicinandosi alla qualità dei sistemi commerciali SOTA. Il nostro codice, modelli e dataset sono disponibili nella pagina del progetto: https://ephemeral182.github.io/PosterCraft.
English
Generating aesthetic posters is more challenging than simple design images:
it requires not only precise text rendering but also the seamless integration
of abstract artistic content, striking layouts, and overall stylistic harmony.
To address this, we propose PosterCraft, a unified framework that abandons
prior modular pipelines and rigid, predefined layouts, allowing the model to
freely explore coherent, visually compelling compositions. PosterCraft employs
a carefully designed, cascaded workflow to optimize the generation of
high-aesthetic posters: (i) large-scale text-rendering optimization on our
newly introduced Text-Render-2M dataset; (ii) region-aware supervised
fine-tuning on HQ-Poster100K; (iii) aesthetic-text-reinforcement learning via
best-of-n preference optimization; and (iv) joint vision-language feedback
refinement. Each stage is supported by a fully automated data-construction
pipeline tailored to its specific needs, enabling robust training without
complex architectural modifications. Evaluated on multiple experiments,
PosterCraft significantly outperforms open-source baselines in rendering
accuracy, layout coherence, and overall visual appeal-approaching the quality
of SOTA commercial systems. Our code, models, and datasets can be found in the
Project page: https://ephemeral182.github.io/PosterCraft