BizGen: Развитие визуализации текста на уровне статей для генерации инфографики
BizGen: Advancing Article-level Visual Text Rendering for Infographics Generation
March 26, 2025
Авторы: Yuyang Peng, Shishi Xiao, Keming Wu, Qisheng Liao, Bohan Chen, Kevin Lin, Danqing Huang, Ji Li, Yuhui Yuan
cs.AI
Аннотация
В последнее время передовые модели генерации изображений из текста, такие как Flux и Ideogram 2.0, достигли значительного прогресса в визуализации текста на уровне предложений. В данной статье мы сосредоточимся на более сложных сценариях визуализации текста на уровне статей и рассмотрим новую задачу генерации высококачественного бизнес-контента, включая инфографику и слайды, на основе предоставленных пользователем описательных промптов уровня статьи и сверхплотных макетов. Основные проблемы заключаются в следующем: значительно большая длина контекста и недостаток высококачественных данных бизнес-контента.
В отличие от большинства предыдущих работ, которые сосредоточены на ограниченном числе подрегионов и промптах уровня предложения, обеспечение точного соответствия сверхплотным макетам с десятками или даже сотнями подрегионов в бизнес-контенте представляет собой гораздо более сложную задачу. Мы делаем два ключевых технических вклада: (i) создание масштабируемого набора данных высококачественного бизнес-контента, а именно Infographics-650K, оснащенного сверхплотными макетами и промптами с использованием послойной схемы генерации инфографики с усилением поиска; и (ii) схему кросс-внимания, управляемую макетом, которая внедряет десятки промптов для каждого региона в набор латентных пространств обрезанных регионов в соответствии со сверхплотными макетами и гибко уточняет каждый подрегион во время вывода с использованием условного CFG на основе макета.
Мы демонстрируем впечатляющие результаты нашей системы по сравнению с предыдущими SOTA-системами, такими как Flux и SD3, на нашем наборе промптов BizEval. Кроме того, мы проводим тщательные эксперименты с абляцией, чтобы подтвердить эффективность каждого компонента. Мы надеемся, что созданные нами Infographics-650K и BizEval вдохновят более широкое сообщество на продвижение прогресса в области генерации бизнес-контента.
English
Recently, state-of-the-art text-to-image generation models, such as Flux and
Ideogram 2.0, have made significant progress in sentence-level visual text
rendering. In this paper, we focus on the more challenging scenarios of
article-level visual text rendering and address a novel task of generating
high-quality business content, including infographics and slides, based on user
provided article-level descriptive prompts and ultra-dense layouts. The
fundamental challenges are twofold: significantly longer context lengths and
the scarcity of high-quality business content data.
In contrast to most previous works that focus on a limited number of
sub-regions and sentence-level prompts, ensuring precise adherence to
ultra-dense layouts with tens or even hundreds of sub-regions in business
content is far more challenging. We make two key technical contributions: (i)
the construction of scalable, high-quality business content dataset, i.e.,
Infographics-650K, equipped with ultra-dense layouts and prompts by
implementing a layer-wise retrieval-augmented infographic generation scheme;
and (ii) a layout-guided cross attention scheme, which injects tens of
region-wise prompts into a set of cropped region latent space according to the
ultra-dense layouts, and refine each sub-regions flexibly during inference
using a layout conditional CFG.
We demonstrate the strong results of our system compared to previous SOTA
systems such as Flux and SD3 on our BizEval prompt set. Additionally, we
conduct thorough ablation experiments to verify the effectiveness of each
component. We hope our constructed Infographics-650K and BizEval can encourage
the broader community to advance the progress of business content generation.