ChatPaper.aiChatPaper

BizGen: Avançando na Renderização Visual de Texto em Nível de Artigo para Geração de Infográficos

BizGen: Advancing Article-level Visual Text Rendering for Infographics Generation

March 26, 2025
Autores: Yuyang Peng, Shishi Xiao, Keming Wu, Qisheng Liao, Bohan Chen, Kevin Lin, Danqing Huang, Ji Li, Yuhui Yuan
cs.AI

Resumo

Recentemente, modelos de geração de texto para imagem de última geração, como Flux e Ideogram 2.0, fizeram progressos significativos na renderização visual de texto em nível de frase. Neste artigo, focamos nos cenários mais desafiadores de renderização visual de texto em nível de artigo e abordamos uma nova tarefa de gerar conteúdo empresarial de alta qualidade, incluindo infográficos e slides, com base em prompts descritivos em nível de artigo e layouts ultra-densos fornecidos pelo usuário. Os desafios fundamentais são duplos: contextos significativamente mais longos e a escassez de dados de conteúdo empresarial de alta qualidade. Em contraste com a maioria dos trabalhos anteriores que se concentram em um número limitado de sub-regiões e prompts em nível de frase, garantir a adesão precisa a layouts ultra-densos com dezenas ou até centenas de sub-regiões em conteúdo empresarial é muito mais desafiador. Fazemos duas contribuições técnicas principais: (i) a construção de um conjunto de dados de conteúdo empresarial escalável e de alta qualidade, ou seja, Infographics-650K, equipado com layouts ultra-densos e prompts, implementando um esquema de geração de infográficos aumentado por recuperação em camadas; e (ii) um esquema de atenção cruzada guiado por layout, que injeta dezenas de prompts por região em um conjunto de espaços latentes de regiões recortadas de acordo com os layouts ultra-densos, e refina cada sub-região de forma flexível durante a inferência usando um CFG condicional ao layout. Demonstramos os resultados robustos do nosso sistema em comparação com sistemas SOTA anteriores, como Flux e SD3, em nosso conjunto de prompts BizEval. Além disso, realizamos experimentos de ablação minuciosos para verificar a eficácia de cada componente. Esperamos que nosso Infographics-650K e BizEval construídos possam encorajar a comunidade mais ampla a avançar o progresso na geração de conteúdo empresarial.
English
Recently, state-of-the-art text-to-image generation models, such as Flux and Ideogram 2.0, have made significant progress in sentence-level visual text rendering. In this paper, we focus on the more challenging scenarios of article-level visual text rendering and address a novel task of generating high-quality business content, including infographics and slides, based on user provided article-level descriptive prompts and ultra-dense layouts. The fundamental challenges are twofold: significantly longer context lengths and the scarcity of high-quality business content data. In contrast to most previous works that focus on a limited number of sub-regions and sentence-level prompts, ensuring precise adherence to ultra-dense layouts with tens or even hundreds of sub-regions in business content is far more challenging. We make two key technical contributions: (i) the construction of scalable, high-quality business content dataset, i.e., Infographics-650K, equipped with ultra-dense layouts and prompts by implementing a layer-wise retrieval-augmented infographic generation scheme; and (ii) a layout-guided cross attention scheme, which injects tens of region-wise prompts into a set of cropped region latent space according to the ultra-dense layouts, and refine each sub-regions flexibly during inference using a layout conditional CFG. We demonstrate the strong results of our system compared to previous SOTA systems such as Flux and SD3 on our BizEval prompt set. Additionally, we conduct thorough ablation experiments to verify the effectiveness of each component. We hope our constructed Infographics-650K and BizEval can encourage the broader community to advance the progress of business content generation.
PDF143March 27, 2025