OmniAlpha: Een Sequence-to-Sequence Framework voor Verenigde Multi-Task RGBA-generatie
OmniAlpha: A Sequence-to-Sequence Framework for Unified Multi-Task RGBA Generation
November 25, 2025
Auteurs: Hao Yu, Jiabo Zhan, Zile Wang, Jinglin Wang, Huaisong Zhang, Hongyu Li, Xinrui Chen, Yongxian Wei, Chun Yuan
cs.AI
Samenvatting
Generatieve modellen hebben uitstekende prestaties geleverd bij RGB-synthese, maar real-world toepassingen vereisen RGBA-manipulatie. Dit heeft geleid tot een gefragmenteerd landschap: gespecialiseerde, enkelvoudige modellen verwerken alfakanalen maar missen veelzijdigheid, terwijl verenigde multi-task frameworks beperkt blijven tot het RGB-domein. Om deze kritieke kloof te overbruggen, presenteren we OmniAlpha, het eerste verenigde, multi-task generatieve framework voor sequence-to-sequence RGBA-beeldgeneratie en -bewerking. De architectuur beschikt over MSRoPE-BiL, een nieuwe RoPE-methode met een bidirectioneel uitbreidbare laagas voor de Diffusion Transformer (DiT)-backbone, waardoor gelijktijdige verwerking van meerdere invoer- en doel-RGBA-lagen mogelijk wordt. Om dit framework kracht bij te zetten, introduceren we AlphaLayers, een nieuwe dataset van 1.000 hoogwaardige, multi-layer triplets, opgebouwd via een nieuwe pijplijn voor geautomatiseerde synthese en filtering. Door OmniAlpha gezamenlijk op deze dataset te trainen over een uitgebreide reeks van 21 diverse taken, tonen uitgebreide experimenten aan dat onze verenigde aanpak consistent sterker presteert dan gespecialiseerde baseline-modellen. Opmerkelijk is dat OmniAlpha een dramatische relatieve reductie van 84,8% in SAD bereikt voor maskervrije matting op AIM-500 en meer dan 90% van de menselijke voorkeuren wint bij laaggeconditioneerde voltooiing. Ons werk bewijst dat een verenigd, multi-task model een superieure gedeelde representatie voor RGBA kan leren, waardoor de weg wordt geëffend voor krachtigere, laagbewuste generatieve systemen.
English
Generative models have excelled in RGB synthesis, but real-world applications require RGBA manipulation. This has led to a fragmented landscape: specialized, single-task models handle alpha but lack versatility, while unified multi-task frameworks are confined to the RGB domain. To bridge this critical gap, we propose OmniAlpha, the first unified, multi-task generative framework for sequence-to-sequence RGBA image generation and editing. Its architecture features MSRoPE-BiL, a novel RoPE method with a bi-directionally extendable layer axis for its Diffusion Transformer (DiT) backbone, enabling the concurrent processing of multiple input and target RGBA layers. To power this framework, we introduce AlphaLayers, a new dataset of 1,000 high-quality, multi-layer triplets, built via a novel automated synthesis and filter pipeline. Jointly training OmniAlpha on this dataset across a comprehensive suite of 21 diverse tasks, extensive experiments demonstrate that our unified approach consistently outperforms strong, specialized baselines. Most notably, OmniAlpha achieves a dramatic 84.8% relative reduction in SAD for mask-free matting on AIM-500 and wins over 90% of human preferences in layer-conditioned completion. Our work proves that a unified, multi-task model can learn a superior shared representation for RGBA, paving the way for more powerful, layer-aware generative systems.