PosterCraft: Neudenken der Erstellung hochwertiger ästhetischer Poster in einem einheitlichen Framework
PosterCraft: Rethinking High-Quality Aesthetic Poster Generation in a Unified Framework
June 12, 2025
Autoren: SiXiang Chen, Jianyu Lai, Jialin Gao, Tian Ye, Haoyu Chen, Hengyu Shi, Shitong Shao, Yunlong Lin, Song Fei, Zhaohu Xing, Yeying Jin, Junfeng Luo, Xiaoming Wei, Lei Zhu
cs.AI
Zusammenfassung
Das Erstellen ästhetischer Poster ist anspruchsvoller als das Gestalten einfacher Designbilder: Es erfordert nicht nur präzises Text-Rendering, sondern auch die nahtlose Integration von abstraktem künstlerischem Inhalt, auffälligen Layouts und einer insgesamt stilistischen Harmonie. Um dies zu bewältigen, schlagen wir PosterCraft vor, ein einheitliches Framework, das vorherige modulare Pipelines und starre, vordefinierte Layouts aufgibt und es dem Modell ermöglicht, frei zusammenhängende, visuell ansprechende Kompositionen zu erkunden. PosterCraft verwendet einen sorgfältig gestalteten, kaskadierten Workflow, um die Erstellung hochästhetischer Poster zu optimieren: (i) groß angelegte Text-Rendering-Optimierung auf unserem neu eingeführten Text-Render-2M-Datensatz; (ii) regionsbewusste, überwachte Feinabstimmung auf HQ-Poster100K; (iii) ästhetische Text-Verstärkung durch Best-of-n-Präferenzoptimierung; und (iv) gemeinsame Vision-Sprache-Feedback-Verfeinerung. Jede Stufe wird durch eine vollautomatische Datenkonstruktionspipeline unterstützt, die auf ihre spezifischen Anforderungen zugeschnitten ist, was ein robustes Training ohne komplexe architektonische Modifikationen ermöglicht. In mehreren Experimenten bewertet, übertrifft PosterCraft Open-Source-Baselines deutlich in Bezug auf Rendering-Genauigkeit, Layout-Kohärenz und Gesamtvisueller Anziehungskraft – und nähert sich dabei der Qualität von SOTA-Kommerzialsystemen. Unser Code, Modelle und Datensätze finden Sie auf der Projektseite: https://ephemeral182.github.io/PosterCraft.
English
Generating aesthetic posters is more challenging than simple design images:
it requires not only precise text rendering but also the seamless integration
of abstract artistic content, striking layouts, and overall stylistic harmony.
To address this, we propose PosterCraft, a unified framework that abandons
prior modular pipelines and rigid, predefined layouts, allowing the model to
freely explore coherent, visually compelling compositions. PosterCraft employs
a carefully designed, cascaded workflow to optimize the generation of
high-aesthetic posters: (i) large-scale text-rendering optimization on our
newly introduced Text-Render-2M dataset; (ii) region-aware supervised
fine-tuning on HQ-Poster100K; (iii) aesthetic-text-reinforcement learning via
best-of-n preference optimization; and (iv) joint vision-language feedback
refinement. Each stage is supported by a fully automated data-construction
pipeline tailored to its specific needs, enabling robust training without
complex architectural modifications. Evaluated on multiple experiments,
PosterCraft significantly outperforms open-source baselines in rendering
accuracy, layout coherence, and overall visual appeal-approaching the quality
of SOTA commercial systems. Our code, models, and datasets can be found in the
Project page: https://ephemeral182.github.io/PosterCraft