DreamPoster: Un Marco Unificado para el Diseño de Carteles Generativos Condicionados por Imágenes
DreamPoster: A Unified Framework for Image-Conditioned Generative Poster Design
July 6, 2025
Autores: Xiwei Hu, Haokun Chen, Zhongqi Qi, Hui Zhang, Dexiang Hong, Jie Shao, Xinglong Wu
cs.AI
Resumen
Presentamos DreamPoster, un marco de generación de Texto a Imagen que sintetiza de manera inteligente carteles de alta calidad a partir de imágenes y textos proporcionados por el usuario, manteniendo la fidelidad del contenido y permitiendo salidas flexibles en resolución y diseño. Específicamente, DreamPoster se basa en nuestro modelo T2I, Seedream3.0, para procesar de manera uniforme diferentes tipos de generación de carteles. Para la construcción del conjunto de datos, proponemos una canalización sistemática de anotación de datos que etiqueta con precisión el contenido textual y la información jerárquica tipográfica dentro de las imágenes de los carteles, mientras emplea metodologías exhaustivas para construir conjuntos de datos emparejados que incluyen materiales de origen (por ejemplo, gráficos/textos en bruto) y sus correspondientes salidas finales de carteles. Además, implementamos una estrategia de entrenamiento progresivo que permite al modelo adquirir jerárquicamente capacidades de generación multitarea mientras mantiene una generación de alta calidad. Las evaluaciones en nuestros puntos de referencia de prueba demuestran la superioridad de DreamPoster sobre los métodos existentes, alcanzando una tasa de usabilidad del 88.55\%, en comparación con GPT-4o (47.56\%) y SeedEdit3.0 (25.96\%). DreamPoster estará disponible en Jimeng y otras aplicaciones de Bytedance.
English
We present DreamPoster, a Text-to-Image generation framework that
intelligently synthesizes high-quality posters from user-provided images and
text prompts while maintaining content fidelity and supporting flexible
resolution and layout outputs. Specifically, DreamPoster is built upon our T2I
model, Seedream3.0 to uniformly process different poster generating types. For
dataset construction, we propose a systematic data annotation pipeline that
precisely annotates textual content and typographic hierarchy information
within poster images, while employing comprehensive methodologies to construct
paired datasets comprising source materials (e.g., raw graphics/text) and their
corresponding final poster outputs. Additionally, we implement a progressive
training strategy that enables the model to hierarchically acquire multi-task
generation capabilities while maintaining high-quality generation. Evaluations
on our testing benchmarks demonstrate DreamPoster's superiority over existing
methods, achieving a high usability rate of 88.55\%, compared to GPT-4o
(47.56\%) and SeedEdit3.0 (25.96\%). DreamPoster will be online in Jimeng and
other Bytedance Apps.