Skywork UniPic: Modelado Autoregresivo Unificado para Comprensión y Generación Visual

Resumen

Presentamos Skywork UniPic, un modelo autorregresivo de 1.5 mil millones de parámetros que unifica la comprensión de imágenes, la generación de texto a imagen y la edición de imágenes dentro de una única arquitectura, eliminando la necesidad de adaptadores específicos para tareas o conectores entre módulos, y demostramos que los sistemas multimodales compactos pueden alcanzar un rendimiento de vanguardia en hardware estándar. Skywork UniPic logra una puntuación GenEval de 0.86, superando a la mayoría de los modelos unificados existentes; establece un nuevo récord en DPG-Bench para generación compleja con 85.5; obtiene 5.83 en GEditBench-EN y 3.49 en ImgEdit-Bench para edición de imágenes; y genera imágenes de 1024 x 1024 con menos de 15 GB de memoria GPU (por ejemplo, RTX 4090). (1) una estrategia de codificación desacoplada que aprovecha un codificador autorregresivo enmascarado para síntesis y un codificador SigLIP2 para comprensión, ambos alimentando un decodificador autorregresivo compartido; (2) un plan de entrenamiento progresivo y consciente de la resolución que escala desde 256 x 256 hasta 1024 x 1024 mientras descongela parámetros dinámicamente para equilibrar capacidad y estabilidad; y (3) conjuntos de datos meticulosamente curados, de escala de 100 millones, aumentados con modelos de recompensa específicos para tareas para refinar los objetivos de generación y edición. Al demostrar que la integración multimodal de alta fidelidad no necesita incurrir en demandas de recursos prohibitivas, Skywork UniPic establece un paradigma práctico para la IA multimodal de alta fidelidad y desplegable. El código y los pesos están disponibles públicamente en https://huggingface.co/Skywork/Skywork-UniPic-1.5B.

English

We introduce Skywork UniPic, a 1.5 billion-parameter autoregressive model that unifies image understanding, text-to-image generation, and image editing within a single architecture-eliminating the need for task-specific adapters or inter-module connectors-and demonstrate that compact multimodal systems can achieve state-of-the-art performance on commodity hardware. Skywork UniPic achieves a GenEval score of 0.86, surpassing most existing unified models; sets a new DPG-Bench complex-generation record of 85.5; attains 5.83 on GEditBench-EN and 3.49 on ImgEdit-Bench for image editing; and generates 1024 x 1024 images with under 15 GB of GPU memory (e.g., RTX 4090). (1) a decoupled encoding strategy that leverages a masked autoregressive encoder for synthesis and a SigLIP2 encoder for understanding, all feeding a shared autoregressive decoder; (2) a progressive, resolution-aware training schedule scaling from 256 x 256 to 1024 x 1024 while dynamically unfreezing parameters to balance capacity and stability; and (3) meticulously curated, 100 million-scale datasets augmented with task-specific reward models to refine generation and editing objectives. By demonstrating that high-fidelity multimodal integration need not incur prohibitive resource demands, Skywork UniPic establishes a practical paradigm for deployable, high-fidelity multimodal AI. Code and weights are publicly available at https://huggingface.co/Skywork/Skywork-UniPic-1.5B.

Skywork UniPic: Modelado Autoregresivo Unificado para Comprensión y Generación Visual

Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and Generation

Resumen

Support