ChatPaper.aiChatPaper

PosterCraft: Replanteamiento de la Generación de Pósteres Estéticos de Alta Calidad en un Marco Unificado

PosterCraft: Rethinking High-Quality Aesthetic Poster Generation in a Unified Framework

June 12, 2025
Autores: SiXiang Chen, Jianyu Lai, Jialin Gao, Tian Ye, Haoyu Chen, Hengyu Shi, Shitong Shao, Yunlong Lin, Song Fei, Zhaohu Xing, Yeying Jin, Junfeng Luo, Xiaoming Wei, Lei Zhu
cs.AI

Resumen

Generar carteles estéticos es más desafiante que crear imágenes de diseño simples: no solo requiere una representación precisa del texto, sino también la integración fluida de contenido artístico abstracto, diseños impactantes y una armonía estilística general. Para abordar este desafío, proponemos PosterCraft, un marco unificado que abandona los enfoques modulares previos y los diseños rígidos predefinidos, permitiendo que el modelo explore libremente composiciones coherentes y visualmente atractivas. PosterCraft emplea un flujo de trabajo en cascada cuidadosamente diseñado para optimizar la generación de carteles de alta estética: (i) optimización a gran escala de la representación de texto en nuestro nuevo conjunto de datos Text-Render-2M; (ii) ajuste fino supervisado con conciencia de región en HQ-Poster100K; (iii) aprendizaje de refuerzo estético-textual mediante optimización de preferencias best-of-n; y (iv) refinamiento conjunto mediante retroalimentación visión-lenguaje. Cada etapa está respaldada por una canalización de construcción de datos completamente automatizada, adaptada a sus necesidades específicas, lo que permite un entrenamiento robusto sin modificaciones arquitectónicas complejas. Evaluado en múltiples experimentos, PosterCraft supera significativamente a las líneas base de código abierto en precisión de representación, coherencia de diseño y atractivo visual general, acercándose a la calidad de los sistemas comerciales más avanzados (SOTA). Nuestro código, modelos y conjuntos de datos están disponibles en la página del proyecto: https://ephemeral182.github.io/PosterCraft.
English
Generating aesthetic posters is more challenging than simple design images: it requires not only precise text rendering but also the seamless integration of abstract artistic content, striking layouts, and overall stylistic harmony. To address this, we propose PosterCraft, a unified framework that abandons prior modular pipelines and rigid, predefined layouts, allowing the model to freely explore coherent, visually compelling compositions. PosterCraft employs a carefully designed, cascaded workflow to optimize the generation of high-aesthetic posters: (i) large-scale text-rendering optimization on our newly introduced Text-Render-2M dataset; (ii) region-aware supervised fine-tuning on HQ-Poster100K; (iii) aesthetic-text-reinforcement learning via best-of-n preference optimization; and (iv) joint vision-language feedback refinement. Each stage is supported by a fully automated data-construction pipeline tailored to its specific needs, enabling robust training without complex architectural modifications. Evaluated on multiple experiments, PosterCraft significantly outperforms open-source baselines in rendering accuracy, layout coherence, and overall visual appeal-approaching the quality of SOTA commercial systems. Our code, models, and datasets can be found in the Project page: https://ephemeral182.github.io/PosterCraft
PDF173June 13, 2025