Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli più avanzati di text-to-image (T2I) richiedono costi di addestramento significativi (ad esempio, milioni di ore GPU), ostacolando seriamente l'innovazione fondamentale per la comunità AIGC e aumentando le emissioni di CO2. Questo articolo introduce PIXART-alpha, un modello di diffusione T2I basato su Transformer la cui qualità di generazione delle immagini è competitiva con i generatori di immagini all'avanguardia (ad esempio, Imagen, SDXL e persino Midjourney), raggiungendo standard quasi commerciali. Inoltre, supporta la sintesi di immagini ad alta risoluzione fino a 1024px con un basso costo di addestramento, come mostrato nelle Figure 1 e 2. Per raggiungere questo obiettivo, vengono proposti tre design principali: (1) Scomposizione della strategia di addestramento: progettiamo tre passaggi di addestramento distinti che ottimizzano separatamente la dipendenza dei pixel, l'allineamento testo-immagine e la qualità estetica dell'immagine; (2) Efficiente Transformer T2I: incorporiamo moduli di cross-attention nel Diffusion Transformer (DiT) per iniettare condizioni testuali e semplificare il ramo computazionalmente intensivo delle condizioni di classe; (3) Dati altamente informativi: sottolineiamo l'importanza della densità concettuale nelle coppie testo-immagine e sfruttiamo un grande modello Vision-Language per auto-etichettare pseudo-didascalie dense per supportare l'apprendimento dell'allineamento testo-immagine. Di conseguenza, la velocità di addestramento di PIXART-alpha supera nettamente quella dei modelli T2I su larga scala esistenti, ad esempio, PIXART-alpha richiede solo il 10,8% del tempo di addestramento di Stable Diffusion v1.5 (675 vs. 6.250 giorni GPU A100), risparmiando quasi \300.000 (26.000 vs. \320.000) e riducendo del 90% le emissioni di CO2. Inoltre, rispetto a un modello SOTA più grande, RAPHAEL, il nostro costo di addestramento è solo l'1%. Esperimenti estesi dimostrano che PIXART-\alpha eccelle in qualità dell'immagine, artisticità e controllo semantico. Speriamo che PIXART-\alpha fornisca nuove intuizioni alla comunità AIGC e alle startup per accelerare la costruzione dei propri modelli generativi di alta qualità ma a basso costo da zero.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità notevoli nei compiti di generazione di testo aperta. Tuttavia, la natura intrinsecamente aperta di questi compiti implica che ci sia sempre spazio per migliorare la qualità delle risposte del modello. Per affrontare questa sfida, sono stati proposti vari approcci per migliorare le prestazioni degli LLM. Si è registrato un crescente interesse nel consentire agli LLM di auto-migliorare la qualità delle loro risposte, riducendo così la dipendenza da estesi sforzi di annotazione umana per raccogliere dati di formazione diversificati e di alta qualità. Recentemente, i metodi basati su prompt sono stati ampiamente esplorati tra i metodi di auto-miglioramento grazie alla loro efficacia, efficienza e convenienza. Tuttavia, questi metodi richiedono solitamente rubriche esplicite e dettagliate come input per gli LLM. È costoso e impegnativo derivare e fornire manualmente tutte le rubriche necessarie con un obiettivo complesso di miglioramento nel mondo reale (ad esempio, essere più utili e meno dannosi). A tal fine, proponiamo un framework di auto-miglioramento implicito (PIT) che apprende implicitamente l'obiettivo di miglioramento dai dati di preferenza umana. PIT richiede solo dati di preferenza utilizzati per addestrare modelli di ricompensa senza ulteriori sforzi umani. Nello specifico, riformuliamo l'obiettivo di formazione dell'apprendimento per rinforzo basato su feedback umano (RLHF) — invece di massimizzare la qualità della risposta per un dato input, massimizziamo il divario di qualità della risposta condizionata su una risposta di riferimento. In questo modo, PIT viene addestrato implicitamente con l'obiettivo di migliorare l'allineamento con le preferenze umane. Esperimenti su due dataset del mondo reale e uno sintetico mostrano che il nostro metodo supera significativamente i metodi basati su prompt.
I modelli generativi di diffusione forniscono forti prior per la generazione di immagini da testo, fungendo così da base per attività di generazione condizionata come l'editing, il restauro e la super-risoluzione di immagini. Tuttavia, una delle principali limitazioni dei modelli di diffusione è il loro tempo di campionamento lento. Per affrontare questa sfida, presentiamo un nuovo metodo di distillazione condizionata progettato per integrare i prior di diffusione con l'aiuto di condizioni immagine, consentendo un campionamento condizionato con pochissimi passaggi. Distilliamo direttamente il pre-addestramento non condizionato in un'unica fase attraverso un apprendimento congiunto, semplificando notevolmente le precedenti procedure in due fasi che prevedevano separatamente la distillazione e il fine-tuning condizionato. Inoltre, il nostro metodo abilita un nuovo meccanismo di distillazione efficiente in termini di parametri che distilla ciascun compito con solo un piccolo numero di parametri aggiuntivi combinati con il backbone non condizionato condiviso e congelato. Esperimenti su più compiti, tra cui super-risoluzione, editing di immagini e generazione di immagini da profondità, dimostrano che il nostro metodo supera le tecniche di distillazione esistenti per lo stesso tempo di campionamento. In particolare, il nostro metodo è la prima strategia di distillazione in grado di eguagliare le prestazioni dei modelli di diffusione condizionati con fine-tuning, molto più lenti.