BizGen : Progrès dans le rendu visuel de texte au niveau de l'article pour la génération d'infographies
BizGen: Advancing Article-level Visual Text Rendering for Infographics Generation
March 26, 2025
Auteurs: Yuyang Peng, Shishi Xiao, Keming Wu, Qisheng Liao, Bohan Chen, Kevin Lin, Danqing Huang, Ji Li, Yuhui Yuan
cs.AI
Résumé
Récemment, les modèles de génération texte-image de pointe, tels que Flux et Ideogram 2.0, ont réalisé des progrès significatifs dans le rendu visuel de texte au niveau de la phrase. Dans cet article, nous nous concentrons sur les scénarios plus complexes du rendu visuel de texte au niveau de l'article et abordons une nouvelle tâche consistant à générer du contenu professionnel de haute qualité, incluant des infographies et des diapositives, à partir de prompts descriptifs au niveau de l'article et de mises en page ultra-denses fournis par l'utilisateur. Les défis fondamentaux sont doubles : des contextes nettement plus longs et la rareté des données de contenu professionnel de haute qualité.
Contrairement à la plupart des travaux précédents qui se concentrent sur un nombre limité de sous-régions et de prompts au niveau de la phrase, garantir une adhésion précise à des mises en page ultra-denses comportant des dizaines, voire des centaines de sous-régions dans le contenu professionnel est bien plus complexe. Nous apportons deux contributions techniques clés : (i) la construction d'un ensemble de données de contenu professionnel évolutif et de haute qualité, à savoir Infographics-650K, doté de mises en page ultra-denses et de prompts grâce à la mise en œuvre d'un schéma de génération d'infographies par récupération couche par couche ; et (ii) un schéma d'attention croisée guidé par la mise en page, qui injecte des dizaines de prompts spécifiques à chaque région dans un espace latent de régions recadrées selon les mises en page ultra-denses, et affine chaque sous-région de manière flexible lors de l'inférence en utilisant un CFG conditionnel à la mise en page.
Nous démontrons les résultats solides de notre système par rapport aux systèmes SOTA précédents tels que Flux et SD3 sur notre ensemble de prompts BizEval. De plus, nous menons des expériences d'ablation approfondies pour vérifier l'efficacité de chaque composant. Nous espérons que notre Infographics-650K et BizEval construits encourageront la communauté élargie à faire progresser la génération de contenu professionnel.
English
Recently, state-of-the-art text-to-image generation models, such as Flux and
Ideogram 2.0, have made significant progress in sentence-level visual text
rendering. In this paper, we focus on the more challenging scenarios of
article-level visual text rendering and address a novel task of generating
high-quality business content, including infographics and slides, based on user
provided article-level descriptive prompts and ultra-dense layouts. The
fundamental challenges are twofold: significantly longer context lengths and
the scarcity of high-quality business content data.
In contrast to most previous works that focus on a limited number of
sub-regions and sentence-level prompts, ensuring precise adherence to
ultra-dense layouts with tens or even hundreds of sub-regions in business
content is far more challenging. We make two key technical contributions: (i)
the construction of scalable, high-quality business content dataset, i.e.,
Infographics-650K, equipped with ultra-dense layouts and prompts by
implementing a layer-wise retrieval-augmented infographic generation scheme;
and (ii) a layout-guided cross attention scheme, which injects tens of
region-wise prompts into a set of cropped region latent space according to the
ultra-dense layouts, and refine each sub-regions flexibly during inference
using a layout conditional CFG.
We demonstrate the strong results of our system compared to previous SOTA
systems such as Flux and SD3 on our BizEval prompt set. Additionally, we
conduct thorough ablation experiments to verify the effectiveness of each
component. We hope our constructed Infographics-650K and BizEval can encourage
the broader community to advance the progress of business content generation.Summary
AI-Generated Summary