PosterCraft: Replanteamiento de la Generación de Pósteres Estéticos de Alta Calidad en un Marco Unificado

Resumen

Generar carteles estéticos es más desafiante que crear imágenes de diseño simples: no solo requiere una representación precisa del texto, sino también la integración fluida de contenido artístico abstracto, diseños impactantes y una armonía estilística general. Para abordar este desafío, proponemos PosterCraft, un marco unificado que abandona los enfoques modulares previos y los diseños rígidos predefinidos, permitiendo que el modelo explore libremente composiciones coherentes y visualmente atractivas. PosterCraft emplea un flujo de trabajo en cascada cuidadosamente diseñado para optimizar la generación de carteles de alta estética: (i) optimización a gran escala de la representación de texto en nuestro nuevo conjunto de datos Text-Render-2M; (ii) ajuste fino supervisado con conciencia de región en HQ-Poster100K; (iii) aprendizaje de refuerzo estético-textual mediante optimización de preferencias best-of-n; y (iv) refinamiento conjunto mediante retroalimentación visión-lenguaje. Cada etapa está respaldada por una canalización de construcción de datos completamente automatizada, adaptada a sus necesidades específicas, lo que permite un entrenamiento robusto sin modificaciones arquitectónicas complejas. Evaluado en múltiples experimentos, PosterCraft supera significativamente a las líneas base de código abierto en precisión de representación, coherencia de diseño y atractivo visual general, acercándose a la calidad de los sistemas comerciales más avanzados (SOTA). Nuestro código, modelos y conjuntos de datos están disponibles en la página del proyecto: https://ephemeral182.github.io/PosterCraft.

English

Generating aesthetic posters is more challenging than simple design images: it requires not only precise text rendering but also the seamless integration of abstract artistic content, striking layouts, and overall stylistic harmony. To address this, we propose PosterCraft, a unified framework that abandons prior modular pipelines and rigid, predefined layouts, allowing the model to freely explore coherent, visually compelling compositions. PosterCraft employs a carefully designed, cascaded workflow to optimize the generation of high-aesthetic posters: (i) large-scale text-rendering optimization on our newly introduced Text-Render-2M dataset; (ii) region-aware supervised fine-tuning on HQ-Poster100K; (iii) aesthetic-text-reinforcement learning via best-of-n preference optimization; and (iv) joint vision-language feedback refinement. Each stage is supported by a fully automated data-construction pipeline tailored to its specific needs, enabling robust training without complex architectural modifications. Evaluated on multiple experiments, PosterCraft significantly outperforms open-source baselines in rendering accuracy, layout coherence, and overall visual appeal-approaching the quality of SOTA commercial systems. Our code, models, and datasets can be found in the Project page: https://ephemeral182.github.io/PosterCraft

PosterCraft: Replanteamiento de la Generación de Pósteres Estéticos de Alta Calidad en un Marco Unificado

PosterCraft: Rethinking High-Quality Aesthetic Poster Generation in a Unified Framework

Resumen

Support