ChatPaper.aiChatPaper

Skywork UniPic: Einheitliche autoregressive Modellierung für visuelles Verständnis und Generierung

Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and Generation

August 5, 2025
papers.authors: Peiyu Wang, Yi Peng, Yimeng Gan, Liang Hu, Tianyidan Xie, Xiaokun Wang, Yichen Wei, Chuanxin Tang, Bo Zhu, Changshi Li, Hongyang Wei, Eric Li, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI

papers.abstract

Wir stellen Skywork UniPic vor, ein autoregressives Modell mit 1,5 Milliarden Parametern, das Bildverständnis, Text-zu-Bild-Generierung und Bildbearbeitung in einer einzigen Architektur vereint – wodurch die Notwendigkeit für aufgabenspezifische Adapter oder Inter-Modul-Verbindungen entfällt – und zeigen, dass kompakte multimodale Systeme auf handelsüblicher Hardware state-of-the-art Leistung erzielen können. Skywork UniPic erreicht einen GenEval-Score von 0,86 und übertrifft damit die meisten bestehenden vereinheitlichten Modelle; setzt einen neuen DPG-Bench-Rekord für komplexe Generierung mit 85,5; erzielt 5,83 auf GEditBench-EN und 3,49 auf ImgEdit-Bench für die Bildbearbeitung; und generiert 1024 x 1024 Bilder mit weniger als 15 GB GPU-Speicher (z.B. RTX 4090). (1) Eine entkoppelte Encodierungsstrategie, die einen maskierten autoregressiven Encoder für die Synthese und einen SigLIP2-Encoder für das Verständnis nutzt, die alle einen gemeinsamen autoregressiven Decoder speisen; (2) ein progressiver, auflösungsbewusster Trainingsplan, der von 256 x 256 auf 1024 x 1024 skaliert und dabei Parameter dynamisch freigibt, um Kapazität und Stabilität auszugleichen; und (3) sorgfältig kuratierte, 100 Millionen umfassende Datensätze, die mit aufgabenspezifischen Belohnungsmodellen angereichert sind, um die Generierungs- und Bearbeitungsziele zu verfeinern. Indem Skywork UniPic zeigt, dass hochwertige multimodale Integration keine unerschwinglichen Ressourcenanforderungen mit sich bringen muss, etabliert es ein praktisches Paradigma für einsatzfähige, hochwertige multimodale KI. Code und Gewichte sind öffentlich verfügbar unter https://huggingface.co/Skywork/Skywork-UniPic-1.5B.
English
We introduce Skywork UniPic, a 1.5 billion-parameter autoregressive model that unifies image understanding, text-to-image generation, and image editing within a single architecture-eliminating the need for task-specific adapters or inter-module connectors-and demonstrate that compact multimodal systems can achieve state-of-the-art performance on commodity hardware. Skywork UniPic achieves a GenEval score of 0.86, surpassing most existing unified models; sets a new DPG-Bench complex-generation record of 85.5; attains 5.83 on GEditBench-EN and 3.49 on ImgEdit-Bench for image editing; and generates 1024 x 1024 images with under 15 GB of GPU memory (e.g., RTX 4090). (1) a decoupled encoding strategy that leverages a masked autoregressive encoder for synthesis and a SigLIP2 encoder for understanding, all feeding a shared autoregressive decoder; (2) a progressive, resolution-aware training schedule scaling from 256 x 256 to 1024 x 1024 while dynamically unfreezing parameters to balance capacity and stability; and (3) meticulously curated, 100 million-scale datasets augmented with task-specific reward models to refine generation and editing objectives. By demonstrating that high-fidelity multimodal integration need not incur prohibitive resource demands, Skywork UniPic establishes a practical paradigm for deployable, high-fidelity multimodal AI. Code and weights are publicly available at https://huggingface.co/Skywork/Skywork-UniPic-1.5B.
PDF502August 6, 2025