OmniGen: Verenigde BeeldgeneratieOmniGen: Unified Image Generation
In dit werk introduceren we OmniGen, een nieuw diffusiemodel voor geïntegreerde beeldgeneratie. In tegenstelling tot populaire diffusiemodellen (bijv. Stable Diffusion), heeft OmniGen niet langer extra modules nodig zoals ControlNet of IP-Adapter om diverse besturingscondities te verwerken. OmniGen wordt gekenmerkt door de volgende kenmerken: 1) Unificatie: OmniGen toont niet alleen tekst-naar-beeldgeneratiemogelijkheden, maar ondersteunt ook inherent andere downstream taken, zoals beeldbewerking, op onderwerp gedreven generatie, en visueel-voorwaardelijke generatie. Bovendien kan OmniGen klassieke computervisietaken aan door ze om te zetten in beeldgeneratietaken, zoals randdetectie en menselijke houdingsherkenning. 2) Eenvoud: De architectuur van OmniGen is sterk vereenvoudigd, waardoor de noodzaak voor extra tekstencoders wordt geëlimineerd. Bovendien is het gebruiksvriendelijker in vergelijking met bestaande diffusiemodellen, waardoor complexe taken kunnen worden uitgevoerd via instructies zonder de noodzaak voor extra voorbewerkingsstappen (bijv. schatting van menselijke houding), waardoor het werkproces van beeldgeneratie aanzienlijk wordt vereenvoudigd. 3) Kennisoverdracht: Door te leren in een geïntegreerd formaat, kan OmniGen effectief kennis overdragen tussen verschillende taken, ongeziene taken en domeinen beheren, en nieuwe mogelijkheden tonen. We verkennen ook de redeneercapaciteiten van het model en potentiële toepassingen van het ketendenkmechanisme. Dit werk vertegenwoordigt de eerste poging tot een algemeen beeldgeneratiemodel, en er zijn nog verschillende onopgeloste kwesties. We zullen de gerelateerde bronnen open-source maken op https://github.com/VectorSpaceLab/OmniGen om vooruitgang in dit vakgebied te bevorderen.