OmniAlpha: Ein Sequenz-zu-Sequenz-Framework für vereinheitlichte Multi-Task-RGBA-Generierung
OmniAlpha: A Sequence-to-Sequence Framework for Unified Multi-Task RGBA Generation
November 25, 2025
papers.authors: Hao Yu, Jiabo Zhan, Zile Wang, Jinglin Wang, Huaisong Zhang, Hongyu Li, Xinrui Chen, Yongxian Wei, Chun Yuan
cs.AI
papers.abstract
Generative Modelle haben bei der RGB-Synthese hervorragende Ergebnisse erzielt, doch praktische Anwendungen erfordern die Manipulation von RGBA-Daten. Dies hat zu einer fragmentierten Landschaft geführt: spezialisierte Einzelaufgaben-Modelle verarbeiten Alphakanäle, mangelt es ihnen jedoch an Vielseitigkeit, während vereinheitlichte Multi-Task-Frameworks auf den RGB-Bereich beschränkt sind. Um diese kritische Lücke zu schließen, präsentieren wir OmniAlpha, das erste vereinheitlichte, multi-task-fähige Generative Framework für sequentielle RGBA-Bildgenerierung und -bearbeitung. Seine Architektur zeichnet sich durch MSRoPE-BiL aus, eine neuartige RoPE-Methode mit einer bidirektional erweiterbaren Layer-Achse für das Diffusion Transformer (DiT)-Backbone, die die gleichzeitige Verarbeitung mehrerer Eingabe- und Ziel-RGBA-Layer ermöglicht. Um dieses Framework zu unterstützen, stellen wir AlphaLayers vor, einen neuen Datensatz mit 1.000 hochwertigen Multi-Layer-Tripeln, der durch eine neuartige Pipeline zur automatisierten Synthese und Filterung erstellt wurde. Durch gemeinsames Training von OmniAlpha anhand dieses Datensatzes für ein umfassendes Aufgabenspektrum von 21 verschiedenen Tasks zeigen umfangreiche Experimente, dass unser vereinheitlichter Ansatz durchweg starke, spezialisierte Baseline-Modelle übertrifft. Besonders bemerkenswert ist, dass OmniAlpha eine dramatische relative Reduktion des SAD-Fehlers um 84,8 % für maskenfreies Matting auf AIM-500 erreicht und in layer-konditionierten Vervollständigungsaufgaben über 90 % der menschlichen Präferenzen für sich gewinnt. Unsere Arbeit beweist, dass ein vereinheitlichtes Multi-Task-Modell eine überlegene gemeinsame Repräsentation für RGBA-Daten erlernen kann und so den Weg für leistungsfähigere, layer-sensitive generative Systeme ebnet.
English
Generative models have excelled in RGB synthesis, but real-world applications require RGBA manipulation. This has led to a fragmented landscape: specialized, single-task models handle alpha but lack versatility, while unified multi-task frameworks are confined to the RGB domain. To bridge this critical gap, we propose OmniAlpha, the first unified, multi-task generative framework for sequence-to-sequence RGBA image generation and editing. Its architecture features MSRoPE-BiL, a novel RoPE method with a bi-directionally extendable layer axis for its Diffusion Transformer (DiT) backbone, enabling the concurrent processing of multiple input and target RGBA layers. To power this framework, we introduce AlphaLayers, a new dataset of 1,000 high-quality, multi-layer triplets, built via a novel automated synthesis and filter pipeline. Jointly training OmniAlpha on this dataset across a comprehensive suite of 21 diverse tasks, extensive experiments demonstrate that our unified approach consistently outperforms strong, specialized baselines. Most notably, OmniAlpha achieves a dramatic 84.8% relative reduction in SAD for mask-free matting on AIM-500 and wins over 90% of human preferences in layer-conditioned completion. Our work proves that a unified, multi-task model can learn a superior shared representation for RGBA, paving the way for more powerful, layer-aware generative systems.