ChatPaper.aiChatPaper

Skywork UniPic: Modelado Autoregresivo Unificado para Comprensión y Generación Visual

Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and Generation

August 5, 2025
Autores: Peiyu Wang, Yi Peng, Yimeng Gan, Liang Hu, Tianyidan Xie, Xiaokun Wang, Yichen Wei, Chuanxin Tang, Bo Zhu, Changshi Li, Hongyang Wei, Eric Li, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI

Resumen

Presentamos Skywork UniPic, un modelo autorregresivo de 1.5 mil millones de parámetros que unifica la comprensión de imágenes, la generación de texto a imagen y la edición de imágenes dentro de una única arquitectura, eliminando la necesidad de adaptadores específicos para tareas o conectores entre módulos, y demostramos que los sistemas multimodales compactos pueden alcanzar un rendimiento de vanguardia en hardware estándar. Skywork UniPic logra una puntuación GenEval de 0.86, superando a la mayoría de los modelos unificados existentes; establece un nuevo récord en DPG-Bench para generación compleja con 85.5; obtiene 5.83 en GEditBench-EN y 3.49 en ImgEdit-Bench para edición de imágenes; y genera imágenes de 1024 x 1024 con menos de 15 GB de memoria GPU (por ejemplo, RTX 4090). (1) una estrategia de codificación desacoplada que aprovecha un codificador autorregresivo enmascarado para síntesis y un codificador SigLIP2 para comprensión, ambos alimentando un decodificador autorregresivo compartido; (2) un plan de entrenamiento progresivo y consciente de la resolución que escala desde 256 x 256 hasta 1024 x 1024 mientras descongela parámetros dinámicamente para equilibrar capacidad y estabilidad; y (3) conjuntos de datos meticulosamente curados, de escala de 100 millones, aumentados con modelos de recompensa específicos para tareas para refinar los objetivos de generación y edición. Al demostrar que la integración multimodal de alta fidelidad no necesita incurrir en demandas de recursos prohibitivas, Skywork UniPic establece un paradigma práctico para la IA multimodal de alta fidelidad y desplegable. El código y los pesos están disponibles públicamente en https://huggingface.co/Skywork/Skywork-UniPic-1.5B.
English
We introduce Skywork UniPic, a 1.5 billion-parameter autoregressive model that unifies image understanding, text-to-image generation, and image editing within a single architecture-eliminating the need for task-specific adapters or inter-module connectors-and demonstrate that compact multimodal systems can achieve state-of-the-art performance on commodity hardware. Skywork UniPic achieves a GenEval score of 0.86, surpassing most existing unified models; sets a new DPG-Bench complex-generation record of 85.5; attains 5.83 on GEditBench-EN and 3.49 on ImgEdit-Bench for image editing; and generates 1024 x 1024 images with under 15 GB of GPU memory (e.g., RTX 4090). (1) a decoupled encoding strategy that leverages a masked autoregressive encoder for synthesis and a SigLIP2 encoder for understanding, all feeding a shared autoregressive decoder; (2) a progressive, resolution-aware training schedule scaling from 256 x 256 to 1024 x 1024 while dynamically unfreezing parameters to balance capacity and stability; and (3) meticulously curated, 100 million-scale datasets augmented with task-specific reward models to refine generation and editing objectives. By demonstrating that high-fidelity multimodal integration need not incur prohibitive resource demands, Skywork UniPic establishes a practical paradigm for deployable, high-fidelity multimodal AI. Code and weights are publicly available at https://huggingface.co/Skywork/Skywork-UniPic-1.5B.
PDF502August 6, 2025