BizGen: Avanzando en la Representación Visual de Texto a Nivel de Artículo para la Generación de Infografías
BizGen: Advancing Article-level Visual Text Rendering for Infographics Generation
March 26, 2025
Autores: Yuyang Peng, Shishi Xiao, Keming Wu, Qisheng Liao, Bohan Chen, Kevin Lin, Danqing Huang, Ji Li, Yuhui Yuan
cs.AI
Resumen
Recientemente, los modelos de última generación para la generación de imágenes a partir de texto, como Flux e Ideogram 2.0, han logrado avances significativos en la representación visual de texto a nivel de oraciones. En este artículo, nos centramos en los escenarios más desafiantes de la representación visual de texto a nivel de artículos y abordamos una tarea novedosa: la generación de contenido empresarial de alta calidad, que incluye infografías y diapositivas, basada en indicaciones descriptivas a nivel de artículo proporcionadas por el usuario y diseños ultra-densos. Los desafíos fundamentales son dos: longitudes de contexto significativamente mayores y la escasez de datos de contenido empresarial de alta calidad.
A diferencia de la mayoría de los trabajos anteriores, que se centran en un número limitado de subregiones y indicaciones a nivel de oración, garantizar la adherencia precisa a diseños ultra-densos con decenas o incluso cientos de subregiones en contenido empresarial es mucho más desafiante. Hacemos dos contribuciones técnicas clave: (i) la construcción de un conjunto de datos escalable y de alta calidad de contenido empresarial, es decir, Infographics-650K, equipado con diseños ultra-densos e indicaciones mediante la implementación de un esquema de generación de infografías aumentado por recuperación capa por capa; y (ii) un esquema de atención cruzada guiada por diseño, que inyecta decenas de indicaciones por región en un conjunto de espacios latentes de regiones recortadas según los diseños ultra-densos, y refina cada subregión de manera flexible durante la inferencia utilizando un CFG condicional al diseño.
Demostramos los sólidos resultados de nuestro sistema en comparación con sistemas SOTA anteriores como Flux y SD3 en nuestro conjunto de indicaciones BizEval. Además, realizamos experimentos de ablación exhaustivos para verificar la efectividad de cada componente. Esperamos que nuestro Infographics-650K y BizEval construidos puedan alentar a la comunidad en general a avanzar en el progreso de la generación de contenido empresarial.
English
Recently, state-of-the-art text-to-image generation models, such as Flux and
Ideogram 2.0, have made significant progress in sentence-level visual text
rendering. In this paper, we focus on the more challenging scenarios of
article-level visual text rendering and address a novel task of generating
high-quality business content, including infographics and slides, based on user
provided article-level descriptive prompts and ultra-dense layouts. The
fundamental challenges are twofold: significantly longer context lengths and
the scarcity of high-quality business content data.
In contrast to most previous works that focus on a limited number of
sub-regions and sentence-level prompts, ensuring precise adherence to
ultra-dense layouts with tens or even hundreds of sub-regions in business
content is far more challenging. We make two key technical contributions: (i)
the construction of scalable, high-quality business content dataset, i.e.,
Infographics-650K, equipped with ultra-dense layouts and prompts by
implementing a layer-wise retrieval-augmented infographic generation scheme;
and (ii) a layout-guided cross attention scheme, which injects tens of
region-wise prompts into a set of cropped region latent space according to the
ultra-dense layouts, and refine each sub-regions flexibly during inference
using a layout conditional CFG.
We demonstrate the strong results of our system compared to previous SOTA
systems such as Flux and SD3 on our BizEval prompt set. Additionally, we
conduct thorough ablation experiments to verify the effectiveness of each
component. We hope our constructed Infographics-650K and BizEval can encourage
the broader community to advance the progress of business content generation.Summary
AI-Generated Summary