ChatPaper.aiChatPaper

Skywork UniPic: Geünificeerd Autoregressief Modelleren voor Visueel Begrip en Generatie

Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and Generation

August 5, 2025
Auteurs: Peiyu Wang, Yi Peng, Yimeng Gan, Liang Hu, Tianyidan Xie, Xiaokun Wang, Yichen Wei, Chuanxin Tang, Bo Zhu, Changshi Li, Hongyang Wei, Eric Li, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI

Samenvatting

We introduceren Skywork UniPic, een autoregressief model met 1,5 miljard parameters dat beeldbegrip, tekst-naar-beeldgeneratie en beeldbewerking verenigt binnen een enkele architectuur – waardoor de noodzaak voor taakspecifieke adapters of inter-module connectoren wordt geëlimineerd – en demonstreren dat compacte multimodale systemen state-of-the-art prestaties kunnen bereiken op standaard hardware. Skywork UniPic behaalt een GenEval-score van 0,86, waarmee het de meeste bestaande geünificeerde modellen overtreft; vestigt een nieuw DPG-Bench complex-generatierecord van 85,5; scoort 5,83 op GEditBench-EN en 3,49 op ImgEdit-Bench voor beeldbewerking; en genereert 1024 x 1024 beelden met minder dan 15 GB GPU-geheugen (bijv. RTX 4090). (1) Een ontkoppelde encoderingsstrategie die gebruikmaakt van een gemaskeerde autoregressieve encoder voor synthese en een SigLIP2-encoder voor begrip, die beide een gedeelde autoregressieve decoder voeden; (2) een progressief, resolutiebewust trainingsschema dat opschaalt van 256 x 256 naar 1024 x 1024 terwijl parameters dynamisch worden vrijgegeven om capaciteit en stabiliteit in balans te houden; en (3) zorgvuldig samengestelde datasets op een schaal van 100 miljoen, aangevuld met taakspecifieke beloningsmodellen om generatie- en bewerkingsdoelen te verfijnen. Door aan te tonen dat hoogwaardige multimodale integratie geen buitensporige resource-eisen hoeft te stellen, vestigt Skywork UniPic een praktisch paradigma voor inzetbare, hoogwaardige multimodale AI. Code en gewichten zijn publiekelijk beschikbaar op https://huggingface.co/Skywork/Skywork-UniPic-1.5B.
English
We introduce Skywork UniPic, a 1.5 billion-parameter autoregressive model that unifies image understanding, text-to-image generation, and image editing within a single architecture-eliminating the need for task-specific adapters or inter-module connectors-and demonstrate that compact multimodal systems can achieve state-of-the-art performance on commodity hardware. Skywork UniPic achieves a GenEval score of 0.86, surpassing most existing unified models; sets a new DPG-Bench complex-generation record of 85.5; attains 5.83 on GEditBench-EN and 3.49 on ImgEdit-Bench for image editing; and generates 1024 x 1024 images with under 15 GB of GPU memory (e.g., RTX 4090). (1) a decoupled encoding strategy that leverages a masked autoregressive encoder for synthesis and a SigLIP2 encoder for understanding, all feeding a shared autoregressive decoder; (2) a progressive, resolution-aware training schedule scaling from 256 x 256 to 1024 x 1024 while dynamically unfreezing parameters to balance capacity and stability; and (3) meticulously curated, 100 million-scale datasets augmented with task-specific reward models to refine generation and editing objectives. By demonstrating that high-fidelity multimodal integration need not incur prohibitive resource demands, Skywork UniPic establishes a practical paradigm for deployable, high-fidelity multimodal AI. Code and weights are publicly available at https://huggingface.co/Skywork/Skywork-UniPic-1.5B.
PDF532August 6, 2025