OmniGen:統一圖像生成OmniGen: Unified Image Generation
在這項工作中,我們介紹了 OmniGen,一種新的統一影像生成擴散模型。與流行的擴散模型(例如 Stable Diffusion)不同,OmniGen 不再需要額外的模組,如 ControlNet 或 IP-Adapter 來處理多樣的控制條件。OmniGen 具有以下特點:1)統一性:OmniGen 不僅展示了從文本到影像的生成能力,還內在支持其他下游任務,如影像編輯、主題驅動生成和視覺條件生成。此外,OmniGen 可以通過將其轉換為影像生成任務來處理傳統的計算機視覺任務,如邊緣檢測和人體姿勢識別。2)簡單性:OmniGen 的架構非常簡化,無需額外的文本編碼器。此外,與現有的擴散模型相比,它更加用戶友好,使得可以通過指示完成複雜任務,無需額外的預處理步驟(例如人體姿勢估計),從而顯著簡化了影像生成的工作流程。3)知識轉移:通過以統一格式學習,OmniGen 能夠有效地在不同任務之間轉移知識,處理未見過的任務和領域,並展示新的能力。我們還探索了模型的推理能力和鏈式思維機制的潛在應用。這項工作代表了對通用影像生成模型的首次嘗試,並且仍存在一些未解決的問題。我們將在 https://github.com/VectorSpaceLab/OmniGen 開源相關資源,以促進該領域的進步。