BizGen: Vooruitgang in visuele tekstweergave op artikelniveau voor infographics-generatie
BizGen: Advancing Article-level Visual Text Rendering for Infographics Generation
March 26, 2025
Auteurs: Yuyang Peng, Shishi Xiao, Keming Wu, Qisheng Liao, Bohan Chen, Kevin Lin, Danqing Huang, Ji Li, Yuhui Yuan
cs.AI
Samenvatting
Onlangs hebben state-of-the-art tekst-naar-beeldgeneratiemodellen, zoals Flux en Ideogram 2.0, aanzienlijke vooruitgang geboekt in het visueel weergeven van tekst op zinsniveau. In dit artikel richten we ons op de uitdagendere scenario's van visuele tekstweergave op artikelniveau en behandelen we een nieuwe taak: het genereren van hoogwaardige zakelijke content, waaronder infographics en dia's, op basis van door de gebruiker verstrekte beschrijvende prompts op artikelniveau en ultra-dichte lay-outs. De fundamentele uitdagingen zijn tweeledig: aanzienlijk langere contextlengtes en de schaarste aan hoogwaardige zakelijke contentdata.
In tegenstelling tot de meeste eerdere werken die zich richten op een beperkt aantal subregio's en prompts op zinsniveau, is het veel uitdagender om precieze naleving van ultra-dichte lay-outs met tientallen of zelfs honderden subregio's in zakelijke content te waarborgen. We leveren twee belangrijke technische bijdragen: (i) de constructie van een schaalbare, hoogwaardige dataset voor zakelijke content, genaamd Infographics-650K, uitgerust met ultra-dichte lay-outs en prompts door het implementeren van een laaggewijs retrieval-augmented infographicgeneratieschema; en (ii) een lay-out-gestuurd cross-attentieschema, dat tientallen regiospecifieke prompts injecteert in een set van bijgesneden regiolatente ruimtes volgens de ultra-dichte lay-outs, en elke subregio flexibel verfijnt tijdens inferentie met behulp van een lay-out-conditie CFG.
We demonstreren de sterke resultaten van ons systeem in vergelijking met eerdere SOTA-systemen zoals Flux en SD3 op onze BizEval-promptset. Daarnaast voeren we grondige ablatie-experimenten uit om de effectiviteit van elke component te verifiëren. We hopen dat onze geconstrueerde Infographics-650K en BizEval de bredere gemeenschap kunnen aanmoedigen om de vooruitgang in het genereren van zakelijke content te bevorderen.
English
Recently, state-of-the-art text-to-image generation models, such as Flux and
Ideogram 2.0, have made significant progress in sentence-level visual text
rendering. In this paper, we focus on the more challenging scenarios of
article-level visual text rendering and address a novel task of generating
high-quality business content, including infographics and slides, based on user
provided article-level descriptive prompts and ultra-dense layouts. The
fundamental challenges are twofold: significantly longer context lengths and
the scarcity of high-quality business content data.
In contrast to most previous works that focus on a limited number of
sub-regions and sentence-level prompts, ensuring precise adherence to
ultra-dense layouts with tens or even hundreds of sub-regions in business
content is far more challenging. We make two key technical contributions: (i)
the construction of scalable, high-quality business content dataset, i.e.,
Infographics-650K, equipped with ultra-dense layouts and prompts by
implementing a layer-wise retrieval-augmented infographic generation scheme;
and (ii) a layout-guided cross attention scheme, which injects tens of
region-wise prompts into a set of cropped region latent space according to the
ultra-dense layouts, and refine each sub-regions flexibly during inference
using a layout conditional CFG.
We demonstrate the strong results of our system compared to previous SOTA
systems such as Flux and SD3 on our BizEval prompt set. Additionally, we
conduct thorough ablation experiments to verify the effectiveness of each
component. We hope our constructed Infographics-650K and BizEval can encourage
the broader community to advance the progress of business content generation.Summary
AI-Generated Summary