OmniAlpha: Uma Estrutura Sequência a Sequência para Geração Unificada Multi-Tarefa RGBA
OmniAlpha: A Sequence-to-Sequence Framework for Unified Multi-Task RGBA Generation
November 25, 2025
Autores: Hao Yu, Jiabo Zhan, Zile Wang, Jinglin Wang, Huaisong Zhang, Hongyu Li, Xinrui Chen, Yongxian Wei, Chun Yuan
cs.AI
Resumo
Os modelos generativos têm se destacado na síntese RGB, mas aplicações do mundo real exigem manipulação RGBA. Isso criou um cenário fragmentado: modelos especializados e de tarefa única lidam com o canal alfa, mas carecem de versatilidade, enquanto estruturas unificadas multitarefa estão confinadas ao domínio RGB. Para preencher esta lacuna crítica, propomos o OmniAlpha, o primeiro framework generativo unificado e multitarefa para geração e edição sequencial de imagens RGBA. Sua arquitetura apresenta o MSRoPE-BiL, um novo método RoPE com um eixo de camada extensível bidirecional para seu backbone de Transformer de Difusão (DiT), permitindo o processamento simultâneo de múltiplas camadas RGBA de entrada e destino. Para alimentar este framework, introduzimos o AlphaLayers, um novo conjunto de dados com 1.000 tripletos multicamadas de alta qualidade, construído por meio de um novo pipeline automatizado de síntese e filtragem. Ao treinar o OmniAlpha de forma conjunta neste conjunto de dados através de um conjunto abrangente de 21 tarefas diversas, experimentos extensivos demonstram que nossa abordagem unificada supera consistentemente baselines especializadas e robustas. Mais notavelmente, o OmniAlpha alcança uma redução relativa dramática de 84,8% no SAD para matting sem máscara no AIM-500 e vence mais de 90% das preferências humanas em conclusão condicionada por camada. Nosso trabalho prova que um modelo unificado e multitarefa pode aprender uma representação compartilhada superior para RGBA, abrindo caminho para sistemas generativos mais poderosos e conscientes de camadas.
English
Generative models have excelled in RGB synthesis, but real-world applications require RGBA manipulation. This has led to a fragmented landscape: specialized, single-task models handle alpha but lack versatility, while unified multi-task frameworks are confined to the RGB domain. To bridge this critical gap, we propose OmniAlpha, the first unified, multi-task generative framework for sequence-to-sequence RGBA image generation and editing. Its architecture features MSRoPE-BiL, a novel RoPE method with a bi-directionally extendable layer axis for its Diffusion Transformer (DiT) backbone, enabling the concurrent processing of multiple input and target RGBA layers. To power this framework, we introduce AlphaLayers, a new dataset of 1,000 high-quality, multi-layer triplets, built via a novel automated synthesis and filter pipeline. Jointly training OmniAlpha on this dataset across a comprehensive suite of 21 diverse tasks, extensive experiments demonstrate that our unified approach consistently outperforms strong, specialized baselines. Most notably, OmniAlpha achieves a dramatic 84.8% relative reduction in SAD for mask-free matting on AIM-500 and wins over 90% of human preferences in layer-conditioned completion. Our work proves that a unified, multi-task model can learn a superior shared representation for RGBA, paving the way for more powerful, layer-aware generative systems.