ChatPaper.aiChatPaper

OmniAlpha: un framework sequenza-a-sequenza per la generazione RGBA unificata multi-task

OmniAlpha: A Sequence-to-Sequence Framework for Unified Multi-Task RGBA Generation

November 25, 2025
Autori: Hao Yu, Jiabo Zhan, Zile Wang, Jinglin Wang, Huaisong Zhang, Hongyu Li, Xinrui Chen, Yongxian Wei, Chun Yuan
cs.AI

Abstract

I modelli generativi hanno eccelso nella sintesi RGB, ma le applicazioni reali richiedono la manipolazione RGBA. Ciò ha portato a un panorama frammentato: modelli specializzati e monotask gestiscono il canale alfa ma mancano di versatilità, mentre framework unificati multitask sono confinati al dominio RGB. Per colmare questa lacuna critica, proponiamo OmniAlpha, il primo framework generativo unificato e multitask per la generazione e l'editing di immagini RGBA sequenza-a-sequenza. La sua architettura presenta MSRoPE-BiL, un nuovo metodo RoPE con un asse dei layer estendibile bidirezionalmente per il suo backbone Diffusion Transformer (DiT), che abilita l'elaborazione concorrente di multipli layer RGBA di input e target. Per alimentare questo framework, introduciamo AlphaLayers, un nuovo dataset di 1.000 tripletti multistrato di alta qualità, costruito tramite una nuova pipeline automatizzata di sintesi e filtraggio. Addestrando OmniAlpha congiuntamente su questo dataset attraverso un'estesa suite di 21 task diversificati, esperimenti approfonditi dimostrano che il nostro approccio unificato supera costantemente baseline specializzate e robuste. Notevolmente, OmniAlpha ottiene una drastica riduzione relativa dell'84,8% nel SAD per il matting senza maschera su AIM-500 e vince oltre il 90% delle preferenze umane nel completion condizionato ai layer. Il nostro lavoro dimostra che un modello unificato e multitask può apprendere una rappresentazione condivisa superiore per RGBA, aprendo la strada a sistemi generativi più potenti e consapevoli dei layer.
English
Generative models have excelled in RGB synthesis, but real-world applications require RGBA manipulation. This has led to a fragmented landscape: specialized, single-task models handle alpha but lack versatility, while unified multi-task frameworks are confined to the RGB domain. To bridge this critical gap, we propose OmniAlpha, the first unified, multi-task generative framework for sequence-to-sequence RGBA image generation and editing. Its architecture features MSRoPE-BiL, a novel RoPE method with a bi-directionally extendable layer axis for its Diffusion Transformer (DiT) backbone, enabling the concurrent processing of multiple input and target RGBA layers. To power this framework, we introduce AlphaLayers, a new dataset of 1,000 high-quality, multi-layer triplets, built via a novel automated synthesis and filter pipeline. Jointly training OmniAlpha on this dataset across a comprehensive suite of 21 diverse tasks, extensive experiments demonstrate that our unified approach consistently outperforms strong, specialized baselines. Most notably, OmniAlpha achieves a dramatic 84.8% relative reduction in SAD for mask-free matting on AIM-500 and wins over 90% of human preferences in layer-conditioned completion. Our work proves that a unified, multi-task model can learn a superior shared representation for RGBA, paving the way for more powerful, layer-aware generative systems.
PDF122December 1, 2025