Articoli di ricerca IA selezionati quotidianamente con traduzioni
Modificare una regione locale o un oggetto specifico in una scena 3D rappresentata da un NeRF è una sfida, principalmente a causa della natura implicita della rappresentazione della scena. La fusione coerente di un nuovo oggetto realistico nella scena aggiunge un ulteriore livello di difficoltà. Presentiamo Blended-NeRF, un framework robusto e flessibile per modificare una specifica regione di interesse in una scena NeRF esistente, basato su prompt testuali o patch di immagini, insieme a una scatola ROI 3D. Il nostro metodo sfrutta un modello linguistico-immagine preaddestrato per orientare la sintesi verso un prompt testuale o una patch di immagine fornita dall'utente, insieme a un modello MLP 3D inizializzato su una scena NeRF esistente per generare l'oggetto e integrarlo in una regione specifica della scena originale. Consentiamo la modifica locale localizzando una scatola ROI 3D nella scena di input e fondiamo senza soluzione di continuità il contenuto sintetizzato all'interno della ROI con la scena esistente utilizzando una nuova tecnica di fusione volumetrica. Per ottenere risultati naturali e coerenti tra le diverse visualizzazioni, sfruttiamo precedenti geometrici esistenti e nuove aumentazioni 3D per migliorare la fedeltà visiva del risultato finale. Testiamo il nostro framework sia qualitativamente che quantitativamente su una varietà di scene 3D reali e prompt testuali, dimostrando risultati realistici e coerenti tra più visualizzazioni con una maggiore flessibilità e diversità rispetto ai metodi di riferimento. Infine, mostriamo l'applicabilità del nostro framework per diverse applicazioni di editing 3D, tra cui l'aggiunta di nuovi oggetti a una scena, la rimozione/sostituzione/modifica di oggetti esistenti e la conversione delle texture.
Il successo dei sistemi di riconoscimento facciale basati sul deep learning ha sollevato serie preoccupazioni in materia di privacy, a causa della loro capacità di consentire il tracciamento non autorizzato degli utenti nel mondo digitale. I metodi esistenti per migliorare la privacy non riescono a generare immagini naturalistiche in grado di proteggere la privacy facciale senza compromettere l'esperienza dell'utente. Proponiamo un nuovo approccio in due fasi per la protezione della privacy facciale che si basa sulla ricerca di codici avversari nel manifold a bassa dimensione di un modello generativo preaddestrato. La prima fase inverte l'immagine facciale data nello spazio latente e perfeziona il modello generativo per ottenere una ricostruzione accurata dell'immagine data a partire dal suo codice latente. Questo passaggio produce una buona inizializzazione, favorendo la generazione di volti di alta qualità che assomigliano all'identità data. Successivamente, prompt testuali di trucco definiti dall'utente e una regolarizzazione che preserva l'identità vengono utilizzati per guidare la ricerca di codici avversari nello spazio latente. Esperimenti estesi dimostrano che i volti generati dal nostro approccio hanno una maggiore trasferibilità in contesti black-box, con un guadagno assoluto del 12,06% rispetto allo stato dell'arte nell'approccio di protezione della privacy facciale sotto il compito di verifica facciale. Infine, dimostriamo l'efficacia dell'approccio proposto per i sistemi commerciali di riconoscimento facciale. Il nostro codice è disponibile all'indirizzo https://github.com/fahadshamshad/Clip2Protect.