OmniAlpha:統合的なマルチタスクRGBA生成のためのシーケンス・ツー・シーケンスフレームワーク
OmniAlpha: A Sequence-to-Sequence Framework for Unified Multi-Task RGBA Generation
November 25, 2025
著者: Hao Yu, Jiabo Zhan, Zile Wang, Jinglin Wang, Huaisong Zhang, Hongyu Li, Xinrui Chen, Yongxian Wei, Chun Yuan
cs.AI
要旨
生成モデルはRGB合成において優れた性能を示してきたが、実世界の応用ではRGBA操作が求められる。このため、現在は分断された状況にある:専門的な単一タスクモデルはアルファチャンネルを扱えるが汎用性に欠け、統合的なマルチタスクフレームワークはRGB領域に限定されている。この重要な隔たりを埋めるため、我々はシーケンス・トゥ・シーケンスのRGBA画像生成と編集を行う初の統合型マルチタスク生成フレームワーク「OmniAlpha」を提案する。そのアーキテクチャは、Diffusion Transformer(DiT)バックボーン向けに双方向拡張可能な層軸を備えた新規RoPE手法「MSRoPE-BiL」を特徴とし、複数の入力・ターゲットRGBAレイヤーの同時処理を可能にする。本フレームワークを支えるため、新たな自動合成・フィルターパイプラインにより構築された1,000組の高品質多層トリプレットから成る新しいデータセット「AlphaLayers」を導入した。21の多様なタスク群を網羅するこのデータセットでOmniAlphaを統合学習した結果、本統合アプローチが強力な専門ベースラインを一貫して上回ることを大規模実験で実証した。特に注目すべきは、AIM-500におけるマスク不要マッティングでSADを84.8%という劇的に削減し、レイヤー条件付き補完では90%以上の人選好性を獲得した点である。本研究成果は、統合型マルチタスクモデルがRGBAのための優れた共有表現を学習可能であることを示し、より強力なレイヤー認識生成システムへの道を開くものである。
English
Generative models have excelled in RGB synthesis, but real-world applications require RGBA manipulation. This has led to a fragmented landscape: specialized, single-task models handle alpha but lack versatility, while unified multi-task frameworks are confined to the RGB domain. To bridge this critical gap, we propose OmniAlpha, the first unified, multi-task generative framework for sequence-to-sequence RGBA image generation and editing. Its architecture features MSRoPE-BiL, a novel RoPE method with a bi-directionally extendable layer axis for its Diffusion Transformer (DiT) backbone, enabling the concurrent processing of multiple input and target RGBA layers. To power this framework, we introduce AlphaLayers, a new dataset of 1,000 high-quality, multi-layer triplets, built via a novel automated synthesis and filter pipeline. Jointly training OmniAlpha on this dataset across a comprehensive suite of 21 diverse tasks, extensive experiments demonstrate that our unified approach consistently outperforms strong, specialized baselines. Most notably, OmniAlpha achieves a dramatic 84.8% relative reduction in SAD for mask-free matting on AIM-500 and wins over 90% of human preferences in layer-conditioned completion. Our work proves that a unified, multi-task model can learn a superior shared representation for RGBA, paving the way for more powerful, layer-aware generative systems.