BizGen: 인포그래픽 생성을 위한 문서 수준 시각적 텍스트 렌더링 기술 발전
BizGen: Advancing Article-level Visual Text Rendering for Infographics Generation
March 26, 2025
저자: Yuyang Peng, Shishi Xiao, Keming Wu, Qisheng Liao, Bohan Chen, Kevin Lin, Danqing Huang, Ji Li, Yuhui Yuan
cs.AI
초록
최근 Flux와 Ideogram 2.0과 같은 최첨단 텍스트-이미지 생성 모델들은 문장 수준의 시각적 텍스트 렌더링에서 상당한 진전을 이루었습니다. 본 논문에서는 더욱 도전적인 시나리오인 기사 수준의 시각적 텍스트 렌더링에 초점을 맞추고, 사용자가 제공한 기사 수준의 설명적 프롬프트와 초고밀도 레이아웃을 기반으로 인포그래픽과 슬라이드를 포함한 고품질 비즈니스 콘텐츠를 생성하는 새로운 과제를 다룹니다. 근본적인 도전 과제는 두 가지입니다: 상당히 긴 컨텍스트 길이와 고품질 비즈니스 콘텐츠 데이터의 부족입니다.
대부분의 기존 연구가 제한된 수의 하위 영역과 문장 수준의 프롬프트에 초점을 맞추는 것과 달리, 비즈니스 콘텐츠에서 수십 개 또는 심지어 수백 개의 하위 영역을 가진 초고밀도 레이아웃에 정확히 부합하도록 하는 것은 훨씬 더 어려운 과제입니다. 우리는 두 가지 주요 기술적 기여를 합니다: (i) 계층적 검색-증강 인포그래픽 생성 방식을 구현하여 초고밀도 레이아웃과 프롬프트를 갖춘 확장 가능한 고품질 비즈니스 콘텐츠 데이터셋인 Infographics-650K를 구축하고; (ii) 초고밀도 레이아웃에 따라 수십 개의 영역별 프롬프트를 잘린 영역 잠재 공간에 주입하고, 레이아웃 조건부 CFG를 사용하여 추론 중에 각 하위 영역을 유연하게 정제하는 레이아웃-가이드 교차 주의 방식입니다.
우리는 BizEval 프롬프트 세트에서 Flux와 SD3와 같은 이전 SOTA 시스템과 비교하여 우리 시스템의 강력한 결과를 보여줍니다. 또한, 각 구성 요소의 효과를 검증하기 위해 철저한 제거 실험을 수행합니다. 우리가 구축한 Infographics-650K와 BizEval이 더 넓은 커뮤니티가 비즈니스 콘텐츠 생성의 진전을 촉진하는 데 기여하기를 바랍니다.
English
Recently, state-of-the-art text-to-image generation models, such as Flux and
Ideogram 2.0, have made significant progress in sentence-level visual text
rendering. In this paper, we focus on the more challenging scenarios of
article-level visual text rendering and address a novel task of generating
high-quality business content, including infographics and slides, based on user
provided article-level descriptive prompts and ultra-dense layouts. The
fundamental challenges are twofold: significantly longer context lengths and
the scarcity of high-quality business content data.
In contrast to most previous works that focus on a limited number of
sub-regions and sentence-level prompts, ensuring precise adherence to
ultra-dense layouts with tens or even hundreds of sub-regions in business
content is far more challenging. We make two key technical contributions: (i)
the construction of scalable, high-quality business content dataset, i.e.,
Infographics-650K, equipped with ultra-dense layouts and prompts by
implementing a layer-wise retrieval-augmented infographic generation scheme;
and (ii) a layout-guided cross attention scheme, which injects tens of
region-wise prompts into a set of cropped region latent space according to the
ultra-dense layouts, and refine each sub-regions flexibly during inference
using a layout conditional CFG.
We demonstrate the strong results of our system compared to previous SOTA
systems such as Flux and SD3 on our BizEval prompt set. Additionally, we
conduct thorough ablation experiments to verify the effectiveness of each
component. We hope our constructed Infographics-650K and BizEval can encourage
the broader community to advance the progress of business content generation.Summary
AI-Generated Summary