ChatPaper.aiChatPaper

OmniAlpha: Un Marco de Trabajo Secuencia a Secuencia para la Generación RGBA Unificada Multitarea

OmniAlpha: A Sequence-to-Sequence Framework for Unified Multi-Task RGBA Generation

November 25, 2025
Autores: Hao Yu, Jiabo Zhan, Zile Wang, Jinglin Wang, Huaisong Zhang, Hongyu Li, Xinrui Chen, Yongxian Wei, Chun Yuan
cs.AI

Resumen

Los modelos generativos han destacado en la síntesis RGB, pero las aplicaciones del mundo real requieren manipulación RGBA. Esto ha generado un panorama fragmentado: modelos especializados de tarea única manejan el canal alfa pero carecen de versatilidad, mientras que los marcos unificados multitarea se limitan al dominio RGB. Para cerrar esta brecha crítica, proponemos OmniAlpha, el primer marco generativo unificado y multitarea para la generación y edición secuencial de imágenes RGBA. Su arquitectura presenta MSRoPE-BiL, un novedoso método RoPE con un eje de capa extensible bidireccional para su backbone de Transformer de Difusión (DiT), permitiendo el procesamiento concurrente de múltiples capas RGBA de entrada y objetivo. Para alimentar este marco, presentamos AlphaLayers, un nuevo conjunto de datos de 1.000 tripletes multicapa de alta calidad, construido mediante una novedosa canalización automatizada de síntesis y filtrado. Entrenando OmniAlpha de forma conjunta en este conjunto de datos a través de un conjunto exhaustivo de 21 tareas diversas, experimentos extensivos demuestran que nuestro enfoque unificado supera consistentemente a líneas base especializadas sólidas. Más notablemente, OmniAlpha logra una reducción relativa dramática del 84.8% en SAD para extracción de mate sin máscara en AIM-500 y gana más del 90% de las preferencias humanas en completado condicionado por capas. Nuestro trabajo demuestra que un modelo unificado y multitarea puede aprender una representación compartida superior para RGBA, allanando el camino para sistemas generativos más potentes y conscientes de las capas.
English
Generative models have excelled in RGB synthesis, but real-world applications require RGBA manipulation. This has led to a fragmented landscape: specialized, single-task models handle alpha but lack versatility, while unified multi-task frameworks are confined to the RGB domain. To bridge this critical gap, we propose OmniAlpha, the first unified, multi-task generative framework for sequence-to-sequence RGBA image generation and editing. Its architecture features MSRoPE-BiL, a novel RoPE method with a bi-directionally extendable layer axis for its Diffusion Transformer (DiT) backbone, enabling the concurrent processing of multiple input and target RGBA layers. To power this framework, we introduce AlphaLayers, a new dataset of 1,000 high-quality, multi-layer triplets, built via a novel automated synthesis and filter pipeline. Jointly training OmniAlpha on this dataset across a comprehensive suite of 21 diverse tasks, extensive experiments demonstrate that our unified approach consistently outperforms strong, specialized baselines. Most notably, OmniAlpha achieves a dramatic 84.8% relative reduction in SAD for mask-free matting on AIM-500 and wins over 90% of human preferences in layer-conditioned completion. Our work proves that a unified, multi-task model can learn a superior shared representation for RGBA, paving the way for more powerful, layer-aware generative systems.
PDF122December 1, 2025