ChatPaper.aiChatPaper

Skywork UniPic: Modellazione Autoregressiva Unificata per la Comprensione e Generazione Visiva

Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and Generation

August 5, 2025
Autori: Peiyu Wang, Yi Peng, Yimeng Gan, Liang Hu, Tianyidan Xie, Xiaokun Wang, Yichen Wei, Chuanxin Tang, Bo Zhu, Changshi Li, Hongyang Wei, Eric Li, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI

Abstract

Presentiamo Skywork UniPic, un modello autoregressivo da 1,5 miliardi di parametri che unisce la comprensione delle immagini, la generazione di immagini da testo e la modifica delle immagini all'interno di un'unica architettura, eliminando la necessità di adattatori specifici per task o connettori inter-modulari, e dimostriamo che sistemi multimodali compatti possono raggiungere prestazioni all'avanguardia su hardware di consumo. Skywork UniPic ottiene un punteggio GenEval di 0,86, superando la maggior parte dei modelli unificati esistenti; stabilisce un nuovo record di generazione complessa su DPG-Bench con 85,5; raggiunge 5,83 su GEditBench-EN e 3,49 su ImgEdit-Bench per la modifica delle immagini; e genera immagini 1024 x 1024 con meno di 15 GB di memoria GPU (ad esempio, RTX 4090). (1) una strategia di codifica disaccoppiata che sfrutta un encoder autoregressivo mascherato per la sintesi e un encoder SigLIP2 per la comprensione, tutti alimentando un decoder autoregressivo condiviso; (2) un programma di addestramento progressivo e consapevole della risoluzione, che scala da 256 x 256 a 1024 x 1024 mentre sblocca dinamicamente i parametri per bilanciare capacità e stabilità; e (3) dataset accuratamente curati, su scala di 100 milioni, arricchiti con modelli di ricompensa specifici per task per affinare gli obiettivi di generazione e modifica. Dimostrando che un'integrazione multimodale ad alta fedeltà non deve comportare richieste di risorse proibitive, Skywork UniPic stabilisce un paradigma pratico per l'IA multimodale ad alta fedeltà e distribuibile. Codice e pesi sono disponibili pubblicamente su https://huggingface.co/Skywork/Skywork-UniPic-1.5B.
English
We introduce Skywork UniPic, a 1.5 billion-parameter autoregressive model that unifies image understanding, text-to-image generation, and image editing within a single architecture-eliminating the need for task-specific adapters or inter-module connectors-and demonstrate that compact multimodal systems can achieve state-of-the-art performance on commodity hardware. Skywork UniPic achieves a GenEval score of 0.86, surpassing most existing unified models; sets a new DPG-Bench complex-generation record of 85.5; attains 5.83 on GEditBench-EN and 3.49 on ImgEdit-Bench for image editing; and generates 1024 x 1024 images with under 15 GB of GPU memory (e.g., RTX 4090). (1) a decoupled encoding strategy that leverages a masked autoregressive encoder for synthesis and a SigLIP2 encoder for understanding, all feeding a shared autoregressive decoder; (2) a progressive, resolution-aware training schedule scaling from 256 x 256 to 1024 x 1024 while dynamically unfreezing parameters to balance capacity and stability; and (3) meticulously curated, 100 million-scale datasets augmented with task-specific reward models to refine generation and editing objectives. By demonstrating that high-fidelity multimodal integration need not incur prohibitive resource demands, Skywork UniPic establishes a practical paradigm for deployable, high-fidelity multimodal AI. Code and weights are publicly available at https://huggingface.co/Skywork/Skywork-UniPic-1.5B.
PDF612August 6, 2025