ChatPaper.aiChatPaper

OmniAlpha: 통합 멀티태스크 RGBA 생성을 위한 시퀀스-투-시퀀스 프레임워크

OmniAlpha: A Sequence-to-Sequence Framework for Unified Multi-Task RGBA Generation

November 25, 2025
저자: Hao Yu, Jiabo Zhan, Zile Wang, Jinglin Wang, Huaisong Zhang, Hongyu Li, Xinrui Chen, Yongxian Wei, Chun Yuan
cs.AI

초록

생성 모델은 RGB 합성에서는 뛰어난 성과를 보였으나, 실제 응용에서는 RGBA 조작이 필요합니다. 이로 인해 분절된 생태계가 형성되었습니다. 특화된 단일 작업 모델은 알파 채널을 처리하지만 다목적성이 부족한 반면, 통합된 다중 작업 프레임워크는 RGB 영역에 국한되어 있습니다. 이러한 중요한 격차를 해소하기 위해 우리는 시퀀스-투-시퀀스 RGBA 이미지 생성 및 편집을 위한 최초의 통합 다중 작업 생성 프레임워크인 OmniAlpha를 제안합니다. OmniAlpha의 아키텍처는 Diffusion Transformer(DiT) 백본을 위한 양방향 확장 가능한 레이어 축을 가진 새로운 RoPE 방법인 MSRoPE-BiL을 특징으로 하여, 다중 입력 및 대상 RGBA 레이어의 동시 처리를 가능하게 합니다. 이 프레임워크를 지원하기 위해 우리는 새로운 자동 합성 및 필터 파이프라인을 통해 구축된 1,000개의 고품질 다중 레이어 트리플렛으로 구성된 새로운 데이터셋인 AlphaLayers를 소개합니다. 21가지 다양한 작업군을 포괄하는 이 데이터셋에 대해 OmniAlpha를 공동으로 학습한 결과, 광범위한 실험을 통해 우리의 통합 접근법이 강력한 특화 베이스라인을 지속적으로 능가함을 입증했습니다. 특히 OmniAlpha는 AIM-500에서 마스크 없는 매팅 작업에서 SAD 기준 84.8%의 극적인 상대적 감소를 달성했으며, 레이어 조건부 완성 작업에서는 90% 이상의 인간 선호도를 획득했습니다. 우리의 연구는 통합 다중 작업 모델이 RGBA를 위한 우수한 공유 표현을 학습할 수 있음을 증명하여, 더 강력한 레이어 인식 생성 시스템으로 가는 길을 열었습니다.
English
Generative models have excelled in RGB synthesis, but real-world applications require RGBA manipulation. This has led to a fragmented landscape: specialized, single-task models handle alpha but lack versatility, while unified multi-task frameworks are confined to the RGB domain. To bridge this critical gap, we propose OmniAlpha, the first unified, multi-task generative framework for sequence-to-sequence RGBA image generation and editing. Its architecture features MSRoPE-BiL, a novel RoPE method with a bi-directionally extendable layer axis for its Diffusion Transformer (DiT) backbone, enabling the concurrent processing of multiple input and target RGBA layers. To power this framework, we introduce AlphaLayers, a new dataset of 1,000 high-quality, multi-layer triplets, built via a novel automated synthesis and filter pipeline. Jointly training OmniAlpha on this dataset across a comprehensive suite of 21 diverse tasks, extensive experiments demonstrate that our unified approach consistently outperforms strong, specialized baselines. Most notably, OmniAlpha achieves a dramatic 84.8% relative reduction in SAD for mask-free matting on AIM-500 and wins over 90% of human preferences in layer-conditioned completion. Our work proves that a unified, multi-task model can learn a superior shared representation for RGBA, paving the way for more powerful, layer-aware generative systems.
PDF122December 1, 2025