ChatPaper.aiChatPaper

OmniAlpha : Un cadre séquence-à-séquence pour la génération unifiée et multi-tâches de RGBA

OmniAlpha: A Sequence-to-Sequence Framework for Unified Multi-Task RGBA Generation

November 25, 2025
papers.authors: Hao Yu, Jiabo Zhan, Zile Wang, Jinglin Wang, Huaisong Zhang, Hongyu Li, Xinrui Chen, Yongxian Wei, Chun Yuan
cs.AI

papers.abstract

Les modèles génératifs excellent dans la synthèse RVB, mais les applications réelles nécessitent la manipulation RVBA. Cette situation a engendré un paysage fragmenté : des modèles spécialisés mono-tâche gèrent le canal alpha mais manquent de polyvalence, tandis que les frameworks multi-tâches unifiés se limitent au domaine RVB. Pour combler cette lacune cruciale, nous proposons OmniAlpha, le premier framework génératif unifié et multi-tâches pour la génération et l'édition d'images RVBA séquence-à-séquence. Son architecture intègre MSRoPE-BiL, une nouvelle méthode RoPE avec un axe de couche bidirectionnellement extensible pour son backbone de Transformeur de Diffusion (DiT), permettant le traitement simultané de multiples couches RVBA en entrée et en cible. Pour alimenter ce framework, nous présentons AlphaLayers, un nouveau jeu de données de 1000 triplets multicouches de haute qualité, construit via un nouveau pipeline automatisé de synthèse et de filtrage. Un entraînement conjoint d'OmniAlpha sur ce jeu de données pour un ensemble complet de 21 tâches variées démontre, via des expériences approfondies, que notre approche unifiée surpasse systématiquement des bases de référence spécialisées solides. Plus notablement, OmniAlpha réalise une réduction relative spectaculaire de 84,8% du SAD pour le matting sans masque sur AIM-500 et remporte plus de 90% des préférences humaines pour la complétion conditionnée par les couches. Notre travail prouve qu'un modèle unifié multi-tâches peut apprendre une représentation partagée supérieure pour l'espace RVBA, ouvrant la voie à des systèmes génératifs plus puissants et conscients des couches.
English
Generative models have excelled in RGB synthesis, but real-world applications require RGBA manipulation. This has led to a fragmented landscape: specialized, single-task models handle alpha but lack versatility, while unified multi-task frameworks are confined to the RGB domain. To bridge this critical gap, we propose OmniAlpha, the first unified, multi-task generative framework for sequence-to-sequence RGBA image generation and editing. Its architecture features MSRoPE-BiL, a novel RoPE method with a bi-directionally extendable layer axis for its Diffusion Transformer (DiT) backbone, enabling the concurrent processing of multiple input and target RGBA layers. To power this framework, we introduce AlphaLayers, a new dataset of 1,000 high-quality, multi-layer triplets, built via a novel automated synthesis and filter pipeline. Jointly training OmniAlpha on this dataset across a comprehensive suite of 21 diverse tasks, extensive experiments demonstrate that our unified approach consistently outperforms strong, specialized baselines. Most notably, OmniAlpha achieves a dramatic 84.8% relative reduction in SAD for mask-free matting on AIM-500 and wins over 90% of human preferences in layer-conditioned completion. Our work proves that a unified, multi-task model can learn a superior shared representation for RGBA, paving the way for more powerful, layer-aware generative systems.
PDF122December 1, 2025