ART: 가변 다층 투명 이미지 생성을 위한 익명 영역 변환기
ART: Anonymous Region Transformer for Variable Multi-Layer Transparent Image Generation
February 25, 2025
저자: Yifan Pu, Yiming Zhao, Zhicong Tang, Ruihong Yin, Haoxing Ye, Yuhui Yuan, Dong Chen, Jianmin Bao, Sirui Zhang, Yanbin Wang, Lin Liang, Lijuan Wang, Ji Li, Xiu Li, Zhouhui Lian, Gao Huang, Baining Guo
cs.AI
초록
다중 레이어 이미지 생성은 사용자가 특정 이미지 레이어를 분리, 선택 및 편집할 수 있게 해주는 근본적인 작업으로, 이를 통해 생성 모델과의 상호작용에 혁신을 가져옵니다. 본 논문에서는 전역 텍스트 프롬프트와 익명 영역 레이아웃을 기반으로 가변적인 다중 레이어 투명 이미지를 직접 생성할 수 있는 익명 영역 트랜스포머(Anonymous Region Transformer, ART)를 소개합니다. 스키마 이론(Schema theory)에 영감을 받아, 이 익명 영역 레이아웃은 생성 모델이 어떤 시각적 토큰 집합이 어떤 텍스트 토큰과 정렬되어야 하는지를 자율적으로 결정할 수 있게 합니다. 이는 이전에 지배적이었던 이미지 생성 작업을 위한 의미론적 레이아웃과 대조됩니다. 또한, 각 익명 영역에 속하는 시각적 토큰만을 선택하는 레이어별 영역 자르기(region crop) 메커니즘은 주의(attention) 계산 비용을 크게 줄이고, 수많은 독립적인 레이어(예: 50개 이상)를 가진 이미지를 효율적으로 생성할 수 있게 합니다. 전체 주의(full attention) 접근 방식과 비교했을 때, 우리의 방법은 12배 이상 빠르며 레이어 간 충돌이 더 적습니다. 더 나아가, 우리는 가변적인 다중 레이어 이미지의 투명도를 직접적으로 인코딩 및 디코딩할 수 있는 고품질 다중 레이어 투명 이미지 자동 인코더를 제안합니다. 정밀한 제어와 확장 가능한 레이어 생성을 가능하게 함으로써, ART는 인터랙티브 콘텐츠 생성에 새로운 패러다임을 확립합니다.
English
Multi-layer image generation is a fundamental task that enables users to
isolate, select, and edit specific image layers, thereby revolutionizing
interactions with generative models. In this paper, we introduce the Anonymous
Region Transformer (ART), which facilitates the direct generation of variable
multi-layer transparent images based on a global text prompt and an anonymous
region layout. Inspired by Schema theory suggests that knowledge is organized
in frameworks (schemas) that enable people to interpret and learn from new
information by linking it to prior knowledge.}, this anonymous region layout
allows the generative model to autonomously determine which set of visual
tokens should align with which text tokens, which is in contrast to the
previously dominant semantic layout for the image generation task. In addition,
the layer-wise region crop mechanism, which only selects the visual tokens
belonging to each anonymous region, significantly reduces attention computation
costs and enables the efficient generation of images with numerous distinct
layers (e.g., 50+). When compared to the full attention approach, our method is
over 12 times faster and exhibits fewer layer conflicts. Furthermore, we
propose a high-quality multi-layer transparent image autoencoder that supports
the direct encoding and decoding of the transparency of variable multi-layer
images in a joint manner. By enabling precise control and scalable layer
generation, ART establishes a new paradigm for interactive content creation.Summary
AI-Generated Summary