ChatPaper.aiChatPaper

Skywork UniPic: 시각적 이해 및 생성을 위한 통합 자기회귀 모델링

Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and Generation

August 5, 2025
저자: Peiyu Wang, Yi Peng, Yimeng Gan, Liang Hu, Tianyidan Xie, Xiaokun Wang, Yichen Wei, Chuanxin Tang, Bo Zhu, Changshi Li, Hongyang Wei, Eric Li, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI

초록

우리는 이미지 이해, 텍스트-이미지 생성, 이미지 편집을 단일 아키텍처 내에서 통합한 15억 파라미터의 자기회귀 모델인 Skywork UniPic을 소개한다. 이 모델은 작업별 어댑터나 모듈 간 연결 장치의 필요성을 제거하며, 컴팩트한 다중모달 시스템이 일반적인 하드웨어에서도 최첨단 성능을 달성할 수 있음을 보여준다. Skywork UniPic은 GenEval 점수 0.86을 달성하여 대부분의 기존 통합 모델을 능가하고, DPG-Bench 복합 생성에서 85.5의 새로운 기록을 세웠으며, 이미지 편집에서 GEditBench-EN 5.83과 ImgEdit-Bench 3.49를 기록했다. 또한 1024 x 1024 이미지를 15GB 미만의 GPU 메모리(예: RTX 4090)로 생성한다. (1) 합성을 위한 마스크된 자기회귀 인코더와 이해를 위한 SigLIP2 인코더를 활용한 분리된 인코딩 전략으로, 이들은 모두 공유된 자기회귀 디코더에 입력된다. (2) 256 x 256에서 1024 x 1024까지 확장되는 점진적, 해상도 인식 훈련 스케줄을 통해 매개변수를 동적으로 해제하여 용량과 안정성을 균형 있게 조절한다. (3) 생성 및 편집 목표를 세밀하게 조정하기 위해 작업별 보상 모델로 보강된 1억 규모의 데이터셋을 정교하게 구성했다. 고해상도 다중모달 통합이 과도한 자원 요구를 수반하지 않아도 된다는 점을 입증함으로써, Skywork UniPic은 배포 가능한 고해상도 다중모달 AI를 위한 실용적인 패러다임을 확립한다. 코드와 가중치는 https://huggingface.co/Skywork/Skywork-UniPic-1.5B에서 공개적으로 제공된다.
English
We introduce Skywork UniPic, a 1.5 billion-parameter autoregressive model that unifies image understanding, text-to-image generation, and image editing within a single architecture-eliminating the need for task-specific adapters or inter-module connectors-and demonstrate that compact multimodal systems can achieve state-of-the-art performance on commodity hardware. Skywork UniPic achieves a GenEval score of 0.86, surpassing most existing unified models; sets a new DPG-Bench complex-generation record of 85.5; attains 5.83 on GEditBench-EN and 3.49 on ImgEdit-Bench for image editing; and generates 1024 x 1024 images with under 15 GB of GPU memory (e.g., RTX 4090). (1) a decoupled encoding strategy that leverages a masked autoregressive encoder for synthesis and a SigLIP2 encoder for understanding, all feeding a shared autoregressive decoder; (2) a progressive, resolution-aware training schedule scaling from 256 x 256 to 1024 x 1024 while dynamically unfreezing parameters to balance capacity and stability; and (3) meticulously curated, 100 million-scale datasets augmented with task-specific reward models to refine generation and editing objectives. By demonstrating that high-fidelity multimodal integration need not incur prohibitive resource demands, Skywork UniPic establishes a practical paradigm for deployable, high-fidelity multimodal AI. Code and weights are publicly available at https://huggingface.co/Skywork/Skywork-UniPic-1.5B.
PDF502August 6, 2025