ChatPaper.aiChatPaper

Skywork UniPic : Modélisation autorégressive unifiée pour la compréhension et la génération visuelles

Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and Generation

August 5, 2025
papers.authors: Peiyu Wang, Yi Peng, Yimeng Gan, Liang Hu, Tianyidan Xie, Xiaokun Wang, Yichen Wei, Chuanxin Tang, Bo Zhu, Changshi Li, Hongyang Wei, Eric Li, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI

papers.abstract

Nous présentons Skywork UniPic, un modèle autorégressif de 1,5 milliard de paramètres qui unifie la compréhension d'images, la génération de texte à image et l'édition d'images au sein d'une architecture unique, éliminant ainsi le besoin d'adaptateurs spécifiques à chaque tâche ou de connecteurs inter-modules. Nous démontrons que des systèmes multimodaux compacts peuvent atteindre des performances de pointe sur du matériel grand public. Skywork UniPic obtient un score GenEval de 0,86, surpassant la plupart des modèles unifiés existants ; établit un nouveau record de génération complexe sur DPG-Bench avec 85,5 ; atteint 5,83 sur GEditBench-EN et 3,49 sur ImgEdit-Bench pour l'édition d'images ; et génère des images de 1024 x 1024 avec moins de 15 Go de mémoire GPU (par exemple, RTX 4090). (1) Une stratégie de codage découplée qui exploite un encodeur autorégressif masqué pour la synthèse et un encodeur SigLIP2 pour la compréhension, tous alimentant un décodeur autorégressif partagé ; (2) un plan d'entraînement progressif et conscient de la résolution, passant de 256 x 256 à 1024 x 1024 tout en dégelant dynamiquement les paramètres pour équilibrer capacité et stabilité ; et (3) des ensembles de données soigneusement sélectionnés, à l'échelle de 100 millions, enrichis de modèles de récompense spécifiques à chaque tâche pour affiner les objectifs de génération et d'édition. En démontrant qu'une intégration multimodale de haute fidélité ne nécessite pas des ressources prohibitives, Skywork UniPic établit un paradigme pratique pour une IA multimodale déployable et de haute fidélité. Le code et les poids sont disponibles publiquement à l'adresse https://huggingface.co/Skywork/Skywork-UniPic-1.5B.
English
We introduce Skywork UniPic, a 1.5 billion-parameter autoregressive model that unifies image understanding, text-to-image generation, and image editing within a single architecture-eliminating the need for task-specific adapters or inter-module connectors-and demonstrate that compact multimodal systems can achieve state-of-the-art performance on commodity hardware. Skywork UniPic achieves a GenEval score of 0.86, surpassing most existing unified models; sets a new DPG-Bench complex-generation record of 85.5; attains 5.83 on GEditBench-EN and 3.49 on ImgEdit-Bench for image editing; and generates 1024 x 1024 images with under 15 GB of GPU memory (e.g., RTX 4090). (1) a decoupled encoding strategy that leverages a masked autoregressive encoder for synthesis and a SigLIP2 encoder for understanding, all feeding a shared autoregressive decoder; (2) a progressive, resolution-aware training schedule scaling from 256 x 256 to 1024 x 1024 while dynamically unfreezing parameters to balance capacity and stability; and (3) meticulously curated, 100 million-scale datasets augmented with task-specific reward models to refine generation and editing objectives. By demonstrating that high-fidelity multimodal integration need not incur prohibitive resource demands, Skywork UniPic establishes a practical paradigm for deployable, high-fidelity multimodal AI. Code and weights are publicly available at https://huggingface.co/Skywork/Skywork-UniPic-1.5B.
PDF502August 6, 2025