Articoli di ricerca IA selezionati quotidianamente con traduzioni
I recenti progressi nella generazione di immagini personalizzate utilizzando modelli di diffusione sono stati significativi. Tuttavia, lo sviluppo nel campo della generazione di immagini personalizzate in domini aperti e senza fine-tuning procede piuttosto lentamente. In questo articolo, proponiamo Subject-Diffusion, un nuovo modello di generazione di immagini personalizzate in domini aperti che, oltre a non richiedere il fine-tuning al momento del test, necessita solo di una singola immagine di riferimento per supportare la generazione personalizzata di uno o più soggetti in qualsiasi dominio. In primo luogo, abbiamo costruito uno strumento automatico di etichettatura dei dati e utilizzato il dataset LAION-Aesthetics per creare un dataset su larga scala composto da 76 milioni di immagini con le relative bounding box di rilevamento del soggetto, maschere di segmentazione e descrizioni testuali. In secondo luogo, abbiamo progettato un nuovo framework unificato che combina la semantica del testo e dell'immagine incorporando il controllo della posizione approssimativa e dell'immagine di riferimento a grana fine per massimizzare la fedeltà e la generalizzazione del soggetto. Inoltre, abbiamo adottato un meccanismo di controllo dell'attenzione per supportare la generazione di più soggetti. Risultati qualitativi e quantitativi estesi dimostrano che il nostro metodo supera altri framework SOTA nella generazione di immagini personalizzate singole, multiple e umane. Si prega di fare riferimento alla nostra {pagina del progetto} https://oppo-mente-lab.github.io/subject_diffusion/.
I Neural Radiance Fields (NeRF) hanno il potenziale per diventare una rappresentazione significativa dei media. Poiché l'addestramento di un NeRF non è mai stato un compito semplice, la protezione del copyright del suo modello dovrebbe essere una priorità. In questo articolo, analizzando i pro e i contro delle possibili soluzioni di protezione del copyright, proponiamo di proteggere il copyright dei modelli NeRF sostituendo la rappresentazione del colore originale nel NeRF con una rappresentazione del colore marchiata. Successivamente, viene progettato uno schema di rendering resistente alle distorsioni per garantire un'estrazione robusta del messaggio nei rendering 2D del NeRF. Il nostro metodo proposto può proteggere direttamente il copyright dei modelli NeRF mantenendo un'elevata qualità di rendering e precisione dei bit rispetto alle soluzioni alternative.
I recenti progressi nei Neural Radiance Fields (NeRF) hanno reso possibile la ricostruzione 3D ad alta fedeltà del volto e la sintesi di nuove viste, rendendo la sua manipolazione un compito essenziale nella visione 3D. Tuttavia, i metodi di manipolazione esistenti richiedono un notevole sforzo umano, come una maschera semantica fornita dall'utente e una ricerca manuale degli attributi, risultando inadatti per utenti non esperti. Al contrario, il nostro approccio è progettato per richiedere un solo testo per manipolare un volto ricostruito con NeRF. Per fare ciò, addestriamo prima un manipolatore di scena, un NeRF deformabile condizionato da un codice latente, su una scena dinamica per controllare una deformazione del volto utilizzando il codice latente. Tuttavia, rappresentare una deformazione della scena con un singolo codice latente non è favorevole per la composizione di deformazioni locali osservate in diverse istanze. Pertanto, il nostro Position-conditional Anchor Compositor (PAC) proposto impara a rappresentare una scena manipolata con codici latenti variabili spazialmente. Le loro renderizzazioni con il manipolatore di scena vengono poi ottimizzate per ottenere un'elevata similarità coseno rispetto a un testo target nello spazio di embedding CLIP per la manipolazione guidata da testo. Per quanto ne sappiamo, il nostro approccio è il primo a affrontare la manipolazione guidata da testo di un volto ricostruito con NeRF. Risultati estesi, confronti e studi di ablazione dimostrano l'efficacia del nostro approccio.
Nonostante il notevole successo dei modelli di diffusione nella generazione di immagini, il campionamento lento rimane un problema persistente. Per accelerare il processo di campionamento, studi precedenti hanno riformulato il campionamento di diffusione come un'ODE/SDE e introdotto metodi numerici di ordine superiore. Tuttavia, questi metodi spesso producono artefatti di divergenza, specialmente con un numero ridotto di passi di campionamento, il che limita l'accelerazione ottenibile. In questo articolo, indaghiamo le potenziali cause di questi artefatti e suggeriamo che le piccole regioni di stabilità di questi metodi potrebbero essere la causa principale. Per affrontare questo problema, proponiamo due nuove tecniche. La prima tecnica prevede l'incorporazione del momento Heavy Ball (HB), una tecnica ben nota per migliorare l'ottimizzazione, nei metodi numerici di diffusione esistenti per espandere le loro regioni di stabilità. Dimostriamo inoltre che i metodi risultanti hanno una convergenza del primo ordine. La seconda tecnica, chiamata Generalized Heavy Ball (GHVB), costruisce un nuovo metodo di ordine superiore che offre un compromesso variabile tra accuratezza e soppressione degli artefatti. I risultati sperimentali mostrano che le nostre tecniche sono altamente efficaci nel ridurre gli artefatti e migliorare la qualità delle immagini, superando i risolutori di diffusione all'avanguardia sia sui modelli di diffusione basati su pixel che su quelli basati su latenti per il campionamento a basso numero di passi. La nostra ricerca fornisce nuove intuizioni per la progettazione di metodi numerici per futuri lavori sulla diffusione.