Skywork UniPic: Modelagem Autoregressiva Unificada para Compreensão e Geração Visual
Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and Generation
August 5, 2025
Autores: Peiyu Wang, Yi Peng, Yimeng Gan, Liang Hu, Tianyidan Xie, Xiaokun Wang, Yichen Wei, Chuanxin Tang, Bo Zhu, Changshi Li, Hongyang Wei, Eric Li, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI
Resumo
Apresentamos o Skywork UniPic, um modelo autorregressivo de 1,5 bilhão de parâmetros que unifica a compreensão de imagens, a geração de texto para imagem e a edição de imagens em uma única arquitetura — eliminando a necessidade de adaptadores específicos para tarefas ou conectores intermodulares — e demonstramos que sistemas multimodais compactos podem alcançar desempenho de ponta em hardware de consumo. O Skywork UniPic alcança uma pontuação GenEval de 0,86, superando a maioria dos modelos unificados existentes; estabelece um novo recorde no DPG-Bench para geração complexa de 85,5; atinge 5,83 no GEditBench-EN e 3,49 no ImgEdit-Bench para edição de imagens; e gera imagens de 1024 x 1024 com menos de 15 GB de memória GPU (por exemplo, RTX 4090). (1) uma estratégia de codificação desacoplada que utiliza um codificador autorregressivo mascarado para síntese e um codificador SigLIP2 para compreensão, todos alimentando um decodificador autorregressivo compartilhado; (2) um cronograma de treinamento progressivo e consciente da resolução, escalando de 256 x 256 para 1024 x 1024, enquanto descongela parâmetros dinamicamente para equilibrar capacidade e estabilidade; e (3) conjuntos de dados meticulosamente curados, em escala de 100 milhões, aumentados com modelos de recompensa específicos para tarefas, a fim de refinar os objetivos de geração e edição. Ao demonstrar que a integração multimodal de alta fidelidade não precisa incorrer em demandas proibitivas de recursos, o Skywork UniPic estabelece um paradigma prático para IA multimodal de alta fidelidade e implantável. O código e os pesos estão publicamente disponíveis em https://huggingface.co/Skywork/Skywork-UniPic-1.5B.
English
We introduce Skywork UniPic, a 1.5 billion-parameter autoregressive model
that unifies image understanding, text-to-image generation, and image editing
within a single architecture-eliminating the need for task-specific adapters or
inter-module connectors-and demonstrate that compact multimodal systems can
achieve state-of-the-art performance on commodity hardware. Skywork UniPic
achieves a GenEval score of 0.86, surpassing most existing unified models; sets
a new DPG-Bench complex-generation record of 85.5; attains 5.83 on
GEditBench-EN and 3.49 on ImgEdit-Bench for image editing; and generates 1024 x
1024 images with under 15 GB of GPU memory (e.g., RTX 4090). (1) a decoupled
encoding strategy that leverages a masked autoregressive encoder for synthesis
and a SigLIP2 encoder for understanding, all feeding a shared autoregressive
decoder; (2) a progressive, resolution-aware training schedule scaling from 256
x 256 to 1024 x 1024 while dynamically unfreezing parameters to balance
capacity and stability; and (3) meticulously curated, 100 million-scale
datasets augmented with task-specific reward models to refine generation and
editing objectives. By demonstrating that high-fidelity multimodal integration
need not incur prohibitive resource demands, Skywork UniPic establishes a
practical paradigm for deployable, high-fidelity multimodal AI. Code and
weights are publicly available at
https://huggingface.co/Skywork/Skywork-UniPic-1.5B.