OmniGen: Generazione Unificata di ImmaginiOmniGen: Unified Image Generation
In questo lavoro, presentiamo OmniGen, un nuovo modello di diffusione per la generazione unificata di immagini. A differenza dei popolari modelli di diffusione (ad esempio, Diffusione Stabile), OmniGen non richiede più moduli aggiuntivi come ControlNet o IP-Adapter per elaborare diverse condizioni di controllo. OmniGen è caratterizzato dalle seguenti caratteristiche: 1) Unificazione: OmniGen non solo dimostra capacità di generazione testo-immagine, ma supporta intrinsecamente anche altre attività successive, come modifica delle immagini, generazione guidata dal soggetto e generazione condizionata visivamente. Inoltre, OmniGen può gestire compiti classici di visione artificiale trasformandoli in compiti di generazione di immagini, come rilevamento dei contorni e riconoscimento della postura umana. 2) Semplicità: L'architettura di OmniGen è altamente semplificata, eliminando la necessità di codificatori di testo aggiuntivi. Inoltre, è più user-friendly rispetto ai modelli di diffusione esistenti, consentendo di completare compiti complessi attraverso istruzioni senza la necessità di passaggi di pre-elaborazione aggiuntivi (ad esempio, stima della postura umana), semplificando significativamente il flusso di lavoro della generazione di immagini. 3) Trasferimento di Conoscenza: Attraverso l'apprendimento in un formato unificato, OmniGen trasferisce efficacemente la conoscenza tra diversi compiti, gestisce compiti e domini non visti ed esibisce capacità innovative. Esploriamo anche le capacità di ragionamento del modello e le potenziali applicazioni del meccanismo di concatenazione del pensiero. Questo lavoro rappresenta il primo tentativo di un modello di generazione di immagini ad uso generale e rimangono diverse questioni irrisolte. Metteremo a disposizione le risorse correlate in open source su https://github.com/VectorSpaceLab/OmniGen per favorire i progressi in questo campo.