OmniAlpha: Uma Estrutura Sequência a Sequência para Geração Unificada Multi-Tarefa RGBA

Resumo

Os modelos generativos têm se destacado na síntese RGB, mas aplicações do mundo real exigem manipulação RGBA. Isso criou um cenário fragmentado: modelos especializados e de tarefa única lidam com o canal alfa, mas carecem de versatilidade, enquanto estruturas unificadas multitarefa estão confinadas ao domínio RGB. Para preencher esta lacuna crítica, propomos o OmniAlpha, o primeiro framework generativo unificado e multitarefa para geração e edição sequencial de imagens RGBA. Sua arquitetura apresenta o MSRoPE-BiL, um novo método RoPE com um eixo de camada extensível bidirecional para seu backbone de Transformer de Difusão (DiT), permitindo o processamento simultâneo de múltiplas camadas RGBA de entrada e destino. Para alimentar este framework, introduzimos o AlphaLayers, um novo conjunto de dados com 1.000 tripletos multicamadas de alta qualidade, construído por meio de um novo pipeline automatizado de síntese e filtragem. Ao treinar o OmniAlpha de forma conjunta neste conjunto de dados através de um conjunto abrangente de 21 tarefas diversas, experimentos extensivos demonstram que nossa abordagem unificada supera consistentemente baselines especializadas e robustas. Mais notavelmente, o OmniAlpha alcança uma redução relativa dramática de 84,8% no SAD para matting sem máscara no AIM-500 e vence mais de 90% das preferências humanas em conclusão condicionada por camada. Nosso trabalho prova que um modelo unificado e multitarefa pode aprender uma representação compartilhada superior para RGBA, abrindo caminho para sistemas generativos mais poderosos e conscientes de camadas.

English

Generative models have excelled in RGB synthesis, but real-world applications require RGBA manipulation. This has led to a fragmented landscape: specialized, single-task models handle alpha but lack versatility, while unified multi-task frameworks are confined to the RGB domain. To bridge this critical gap, we propose OmniAlpha, the first unified, multi-task generative framework for sequence-to-sequence RGBA image generation and editing. Its architecture features MSRoPE-BiL, a novel RoPE method with a bi-directionally extendable layer axis for its Diffusion Transformer (DiT) backbone, enabling the concurrent processing of multiple input and target RGBA layers. To power this framework, we introduce AlphaLayers, a new dataset of 1,000 high-quality, multi-layer triplets, built via a novel automated synthesis and filter pipeline. Jointly training OmniAlpha on this dataset across a comprehensive suite of 21 diverse tasks, extensive experiments demonstrate that our unified approach consistently outperforms strong, specialized baselines. Most notably, OmniAlpha achieves a dramatic 84.8% relative reduction in SAD for mask-free matting on AIM-500 and wins over 90% of human preferences in layer-conditioned completion. Our work proves that a unified, multi-task model can learn a superior shared representation for RGBA, paving the way for more powerful, layer-aware generative systems.

OmniAlpha: Uma Estrutura Sequência a Sequência para Geração Unificada Multi-Tarefa RGBA

OmniAlpha: A Sequence-to-Sequence Framework for Unified Multi-Task RGBA Generation

Resumo

Support