ChatPaper.aiChatPaper

Skywork UniPic: Унифицированное авторегрессионное моделирование для визуального понимания и генерации

Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and Generation

August 5, 2025
Авторы: Peiyu Wang, Yi Peng, Yimeng Gan, Liang Hu, Tianyidan Xie, Xiaokun Wang, Yichen Wei, Chuanxin Tang, Bo Zhu, Changshi Li, Hongyang Wei, Eric Li, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI

Аннотация

Мы представляем Skywork UniPic — авторегрессионную модель с 1,5 миллиардами параметров, которая объединяет понимание изображений, генерацию изображений по тексту и редактирование изображений в рамках единой архитектуры, устраняя необходимость в специализированных адаптерах или межмодульных соединителях. Мы демонстрируем, что компактные мультимодальные системы могут достигать передовых показателей на стандартном оборудовании. Skywork UniPic достигает оценки GenEval 0,86, превосходя большинство существующих унифицированных моделей; устанавливает новый рекорд DPG-Bench для сложной генерации — 85,5; получает 5,83 на GEditBench-EN и 3,49 на ImgEdit-Bench для редактирования изображений; а также генерирует изображения 1024 x 1024 с использованием менее 15 ГБ видеопамяти GPU (например, RTX 4090). Основные особенности модели включают: (1) разделенную стратегию кодирования, использующую маскированный авторегрессионный кодировщик для синтеза и кодировщик SigLIP2 для понимания, которые передают данные в общий авторегрессионный декодер; (2) прогрессивный, учитывающий разрешение график обучения, масштабирующийся от 256 x 256 до 1024 x 1024 с динамическим размораживанием параметров для баланса между емкостью и стабильностью; и (3) тщательно отобранные наборы данных объемом 100 миллионов элементов, дополненные моделями вознаграждения для уточнения целей генерации и редактирования. Показывая, что высококачественная мультимодальная интеграция не требует чрезмерных ресурсов, Skywork UniPic устанавливает практическую парадигму для развертываемых, высококачественных мультимодальных ИИ-систем. Код и веса модели доступны по адресу: https://huggingface.co/Skywork/Skywork-UniPic-1.5B.
English
We introduce Skywork UniPic, a 1.5 billion-parameter autoregressive model that unifies image understanding, text-to-image generation, and image editing within a single architecture-eliminating the need for task-specific adapters or inter-module connectors-and demonstrate that compact multimodal systems can achieve state-of-the-art performance on commodity hardware. Skywork UniPic achieves a GenEval score of 0.86, surpassing most existing unified models; sets a new DPG-Bench complex-generation record of 85.5; attains 5.83 on GEditBench-EN and 3.49 on ImgEdit-Bench for image editing; and generates 1024 x 1024 images with under 15 GB of GPU memory (e.g., RTX 4090). (1) a decoupled encoding strategy that leverages a masked autoregressive encoder for synthesis and a SigLIP2 encoder for understanding, all feeding a shared autoregressive decoder; (2) a progressive, resolution-aware training schedule scaling from 256 x 256 to 1024 x 1024 while dynamically unfreezing parameters to balance capacity and stability; and (3) meticulously curated, 100 million-scale datasets augmented with task-specific reward models to refine generation and editing objectives. By demonstrating that high-fidelity multimodal integration need not incur prohibitive resource demands, Skywork UniPic establishes a practical paradigm for deployable, high-fidelity multimodal AI. Code and weights are publicly available at https://huggingface.co/Skywork/Skywork-UniPic-1.5B.
PDF502August 6, 2025