BizGen: Vooruitgang in visuele tekstweergave op artikelniveau voor infographics-generatie

Samenvatting

Onlangs hebben state-of-the-art tekst-naar-beeldgeneratiemodellen, zoals Flux en Ideogram 2.0, aanzienlijke vooruitgang geboekt in het visueel weergeven van tekst op zinsniveau. In dit artikel richten we ons op de uitdagendere scenario's van visuele tekstweergave op artikelniveau en behandelen we een nieuwe taak: het genereren van hoogwaardige zakelijke content, waaronder infographics en dia's, op basis van door de gebruiker verstrekte beschrijvende prompts op artikelniveau en ultra-dichte lay-outs. De fundamentele uitdagingen zijn tweeledig: aanzienlijk langere contextlengtes en de schaarste aan hoogwaardige zakelijke contentdata. In tegenstelling tot de meeste eerdere werken die zich richten op een beperkt aantal subregio's en prompts op zinsniveau, is het veel uitdagender om precieze naleving van ultra-dichte lay-outs met tientallen of zelfs honderden subregio's in zakelijke content te waarborgen. We leveren twee belangrijke technische bijdragen: (i) de constructie van een schaalbare, hoogwaardige dataset voor zakelijke content, genaamd Infographics-650K, uitgerust met ultra-dichte lay-outs en prompts door het implementeren van een laaggewijs retrieval-augmented infographicgeneratieschema; en (ii) een lay-out-gestuurd cross-attentieschema, dat tientallen regiospecifieke prompts injecteert in een set van bijgesneden regiolatente ruimtes volgens de ultra-dichte lay-outs, en elke subregio flexibel verfijnt tijdens inferentie met behulp van een lay-out-conditie CFG. We demonstreren de sterke resultaten van ons systeem in vergelijking met eerdere SOTA-systemen zoals Flux en SD3 op onze BizEval-promptset. Daarnaast voeren we grondige ablatie-experimenten uit om de effectiviteit van elke component te verifiëren. We hopen dat onze geconstrueerde Infographics-650K en BizEval de bredere gemeenschap kunnen aanmoedigen om de vooruitgang in het genereren van zakelijke content te bevorderen.

English

Recently, state-of-the-art text-to-image generation models, such as Flux and Ideogram 2.0, have made significant progress in sentence-level visual text rendering. In this paper, we focus on the more challenging scenarios of article-level visual text rendering and address a novel task of generating high-quality business content, including infographics and slides, based on user provided article-level descriptive prompts and ultra-dense layouts. The fundamental challenges are twofold: significantly longer context lengths and the scarcity of high-quality business content data. In contrast to most previous works that focus on a limited number of sub-regions and sentence-level prompts, ensuring precise adherence to ultra-dense layouts with tens or even hundreds of sub-regions in business content is far more challenging. We make two key technical contributions: (i) the construction of scalable, high-quality business content dataset, i.e., Infographics-650K, equipped with ultra-dense layouts and prompts by implementing a layer-wise retrieval-augmented infographic generation scheme; and (ii) a layout-guided cross attention scheme, which injects tens of region-wise prompts into a set of cropped region latent space according to the ultra-dense layouts, and refine each sub-regions flexibly during inference using a layout conditional CFG. We demonstrate the strong results of our system compared to previous SOTA systems such as Flux and SD3 on our BizEval prompt set. Additionally, we conduct thorough ablation experiments to verify the effectiveness of each component. We hope our constructed Infographics-650K and BizEval can encourage the broader community to advance the progress of business content generation.

BizGen: Vooruitgang in visuele tekstweergave op artikelniveau voor infographics-generatie

BizGen: Advancing Article-level Visual Text Rendering for Infographics Generation

Samenvatting

Support