OmniAlpha: Унифицированная архитектура Sequence-to-Sequence для многозадачной генерации RGBA
OmniAlpha: A Sequence-to-Sequence Framework for Unified Multi-Task RGBA Generation
November 25, 2025
Авторы: Hao Yu, Jiabo Zhan, Zile Wang, Jinglin Wang, Huaisong Zhang, Hongyu Li, Xinrui Chen, Yongxian Wei, Chun Yuan
cs.AI
Аннотация
Генеративные модели достигли выдающихся результатов в синтезе RGB-изображений, однако реальные задачи требуют работы с RGBA-данными. Это привело к фрагментированности области: специализированные модели для отдельных задач работают с альфа-каналом, но не обладают универсальностью, тогда как унифицированные многозадачные框架 ограничены RGB-пространством. Для преодоления этого разрыва мы представляем OmniAlpha — первую унифицированную многозадачную генеративную框架 для последовательного синтеза и редактирования RGBA-изображений. Её архитектура включает MSRoPE-BiL, новый метод RoPE с двунаправленно расширяемой осью слоёв для диффузионного трансформера (DiT), что позволяет параллельно обрабатывать несколько входных и целевых RGBA-слоёв. Для обучения框架 мы создали AlphaLayers — новый набор данных из 1000 высококачественных многослойных триплетов, собранных с помощью автоматизированного管道 синтеза и фильтрации. Совместное обучение OmniAlpha на этом наборе данных для 21 разнородной задачи показало, что наш унифицированный подход стабильно превосходит специализированные基线-модели. Особенно впечатляет достижение 84.8% относительного снижения метрики SAD при безмасочном матировании на AIM-500 и победа в более чем 90% случаев в тестах с человеческим оцениванием layer-conditioned completion. Наша работа доказывает, что унифицированная многозадачная модель способна обучать превосходное общее представление для RGBA-данных, открывая путь к созданию более мощных генеративных систем с поддержкой работы со слоями.
English
Generative models have excelled in RGB synthesis, but real-world applications require RGBA manipulation. This has led to a fragmented landscape: specialized, single-task models handle alpha but lack versatility, while unified multi-task frameworks are confined to the RGB domain. To bridge this critical gap, we propose OmniAlpha, the first unified, multi-task generative framework for sequence-to-sequence RGBA image generation and editing. Its architecture features MSRoPE-BiL, a novel RoPE method with a bi-directionally extendable layer axis for its Diffusion Transformer (DiT) backbone, enabling the concurrent processing of multiple input and target RGBA layers. To power this framework, we introduce AlphaLayers, a new dataset of 1,000 high-quality, multi-layer triplets, built via a novel automated synthesis and filter pipeline. Jointly training OmniAlpha on this dataset across a comprehensive suite of 21 diverse tasks, extensive experiments demonstrate that our unified approach consistently outperforms strong, specialized baselines. Most notably, OmniAlpha achieves a dramatic 84.8% relative reduction in SAD for mask-free matting on AIM-500 and wins over 90% of human preferences in layer-conditioned completion. Our work proves that a unified, multi-task model can learn a superior shared representation for RGBA, paving the way for more powerful, layer-aware generative systems.