ChatPaper.aiChatPaper

Skywork UniPic: 視覚理解と生成のための統合自己回帰モデリング

Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and Generation

August 5, 2025
著者: Peiyu Wang, Yi Peng, Yimeng Gan, Liang Hu, Tianyidan Xie, Xiaokun Wang, Yichen Wei, Chuanxin Tang, Bo Zhu, Changshi Li, Hongyang Wei, Eric Li, Xuchen Song, Yang Liu, Yahui Zhou
cs.AI

要旨

Skywork UniPicを紹介する。これは15億パラメータの自己回帰モデルであり、画像理解、テキストから画像への生成、および画像編集を単一のアーキテクチャに統合し、タスク固有のアダプターやモジュール間コネクターの必要性を排除する。これにより、コンパクトなマルチモーダルシステムが市販のハードウェア上で最先端の性能を達成できることを実証する。Skywork UniPicは、GenEvalスコア0.86を達成し、既存の統合モデルのほとんどを上回る。DPG-Benchの複雑生成記録として85.5を樹立し、画像編集においてGEditBench-ENで5.83、ImgEdit-Benchで3.49を達成する。さらに、1024 x 1024の画像を15 GB未満のGPUメモリ(例:RTX 4090)で生成する。(1) 合成用のマスク付き自己回帰エンコーダと理解用のSigLIP2エンコーダを活用した分離エンコーディング戦略を採用し、これらが共有の自己回帰デコーダに供給される。(2) 256 x 256から1024 x 1024までスケーリングする解像度対応の段階的トレーニングスケジュールを採用し、パラメータを動的に解放して容量と安定性のバランスを取る。(3) 生成および編集目標を洗練するために、タスク固有の報酬モデルで拡張された1億規模の厳選されたデータセットを使用する。高忠実度のマルチモーダル統合が過剰なリソース要求を招く必要がないことを示すことで、Skywork UniPicは、展開可能な高忠実度マルチモーダルAIの実用的なパラダイムを確立する。コードと重みはhttps://huggingface.co/Skywork/Skywork-UniPic-1.5Bで公開されている。
English
We introduce Skywork UniPic, a 1.5 billion-parameter autoregressive model that unifies image understanding, text-to-image generation, and image editing within a single architecture-eliminating the need for task-specific adapters or inter-module connectors-and demonstrate that compact multimodal systems can achieve state-of-the-art performance on commodity hardware. Skywork UniPic achieves a GenEval score of 0.86, surpassing most existing unified models; sets a new DPG-Bench complex-generation record of 85.5; attains 5.83 on GEditBench-EN and 3.49 on ImgEdit-Bench for image editing; and generates 1024 x 1024 images with under 15 GB of GPU memory (e.g., RTX 4090). (1) a decoupled encoding strategy that leverages a masked autoregressive encoder for synthesis and a SigLIP2 encoder for understanding, all feeding a shared autoregressive decoder; (2) a progressive, resolution-aware training schedule scaling from 256 x 256 to 1024 x 1024 while dynamically unfreezing parameters to balance capacity and stability; and (3) meticulously curated, 100 million-scale datasets augmented with task-specific reward models to refine generation and editing objectives. By demonstrating that high-fidelity multimodal integration need not incur prohibitive resource demands, Skywork UniPic establishes a practical paradigm for deployable, high-fidelity multimodal AI. Code and weights are publicly available at https://huggingface.co/Skywork/Skywork-UniPic-1.5B.
PDF502August 6, 2025