Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo aMUSEd, un modello open-source e leggero per la generazione di immagini mascherate (MIM) basato su MUSE, specificamente progettato per la generazione di immagini da testo. Con solo il 10% dei parametri di MUSE, aMUSEd è focalizzato sulla generazione rapida di immagini. Riteniamo che i modelli MIM siano meno esplorati rispetto alla diffusione latente, l'approccio predominante per la generazione di immagini da testo. Rispetto alla diffusione latente, i modelli MIM richiedono meno passaggi di inferenza e sono più interpretabili. Inoltre, i modelli MIM possono essere ottimizzati per apprendere stili aggiuntivi con una singola immagine. Speriamo di incoraggiare ulteriori esplorazioni dei modelli MIM dimostrando la loro efficacia nella generazione di immagini da testo su larga scala e rilasciando codice di formazione riproducibile. Rilasciamo anche checkpoint per due modelli che producono direttamente immagini con risoluzioni di 256x256 e 512x512.
Presentiamo un framework per la generazione di avatar fotorealistici a figura intera che gesticolano in base alle dinamiche conversazionali di un'interazione diadica. Dato un audio vocale, produciamo molteplici possibilità di movimento gestuale per un individuo, includendo viso, corpo e mani. Il punto chiave del nostro metodo risiede nella combinazione dei vantaggi della diversità di campionamento offerta dalla quantizzazione vettoriale con i dettagli ad alta frequenza ottenuti attraverso la diffusione, per generare movimenti più dinamici ed espressivi. Visualizziamo il movimento generato utilizzando avatar altamente fotorealistici in grado di esprimere sfumature cruciali nei gesti (ad esempio, smorfie e sorrisetti). Per facilitare questa linea di ricerca, introduciamo un dataset conversazionale multi-view, il primo nel suo genere, che consente una ricostruzione fotorealistica. Gli esperimenti dimostrano che il nostro modello genera gesti appropriati e diversificati, superando sia i metodi basati esclusivamente sulla diffusione che quelli basati esclusivamente sulla VQ. Inoltre, la nostra valutazione percettiva evidenzia l'importanza del fotorealismo (rispetto alle mesh) nell'accurata valutazione dei dettagli sottili nei gesti conversazionali. Codice e dataset sono disponibili online.
Presentiamo Image Sculpting, un nuovo framework per l'editing di immagini 2D che incorpora strumenti provenienti dalla geometria e dalla grafica 3D. Questo approccio si distingue nettamente dai metodi esistenti, che sono limitati agli spazi 2D e si basano tipicamente su istruzioni testuali, portando ad ambiguità e controllo limitato. Image Sculpting converte oggetti 2D in 3D, consentendo un'interazione diretta con la loro geometria tridimensionale. Dopo l'editing, questi oggetti vengono nuovamente renderizzati in 2D, fondendosi con l'immagine originale per produrre risultati ad alta fedeltà attraverso un processo di miglioramento da grossolano a fine. Il framework supporta opzioni di editing precise, quantificabili e fisicamente plausibili, come la modifica della posa, la rotazione, la traslazione, la composizione 3D, l'intaglio e l'aggiunta seriale. Rappresenta un primo passo verso la combinazione della libertà creativa dei modelli generativi con la precisione delle pipeline grafiche.
I recenti progressi nei modelli di diffusione di immagini hanno portato a notevoli miglioramenti nella generazione di immagini di alta qualità. In combinazione con i Neural Radiance Fields (NeRF), hanno aperto nuove opportunità nella generazione 3D. Tuttavia, la maggior parte degli approcci generativi 3D è centrata sugli oggetti, e applicarli alla modifica di scene fotorealistiche esistenti non è banale. Proponiamo SIGNeRF, un nuovo approccio per la modifica rapida e controllabile di scene NeRF e la generazione di oggetti integrati nella scena. Una nuova strategia di aggiornamento generativo garantisce la coerenza 3D tra le immagini modificate, senza richiedere un'ottimizzazione iterativa. Abbiamo scoperto che i modelli di diffusione condizionati alla profondità possiedono intrinsecamente la capacità di generare viste 3D coerenti richiedendo una griglia di immagini invece di singole viste. Sulla base di queste intuizioni, introduciamo un foglio di riferimento multi-vista di immagini modificate. Il nostro metodo aggiorna una raccolta di immagini in modo coerente basandosi sul foglio di riferimento e perfeziona il NeRF originale con il nuovo set di immagini generato in un'unica operazione. Sfruttando il meccanismo di condizionamento alla profondità del modello di diffusione di immagini, otteniamo un controllo fine sulla posizione spaziale della modifica e imponiamo una guida alla forma attraverso una regione selezionata o una mesh esterna.
I metodi di Conversione della Voce Cantata (SVC) basati sulla diffusione hanno ottenuto prestazioni notevoli, producendo audio naturali con un'elevata somiglianza al timbro target. Tuttavia, il processo iterativo di campionamento risulta in una velocità di inferenza lenta, rendendo cruciale l'accelerazione. In questo articolo, proponiamo CoMoSVC, un metodo SVC basato su un modello di consistenza, che mira a raggiungere sia una generazione di alta qualità che un campionamento ad alta velocità. Un modello insegnante basato sulla diffusione viene inizialmente progettato specificamente per l'SVC, e un modello studente viene ulteriormente distillato sotto le proprietà di auto-consistenza per ottenere un campionamento in un solo passaggio. Esperimenti condotti su una singola GPU NVIDIA GTX4090 rivelano che, sebbene CoMoSVC abbia una velocità di inferenza significativamente più rapida rispetto al sistema SVC basato sulla diffusione allo stato dell'arte (SOTA), raggiunge comunque prestazioni di conversione comparabili o superiori basate su metriche sia soggettive che oggettive. Campioni audio e codici sono disponibili all'indirizzo https://comosvc.github.io/.
I modelli paralleli di sintesi vocale da testo sono stati ampiamente applicati per la sintesi vocale in tempo reale, offrendo una maggiore controllabilità e un processo di sintesi molto più veloce rispetto ai modelli auto-regressivi convenzionali. Sebbene i modelli paralleli presentino vantaggi in molti aspetti, diventano naturalmente inadatti per la sintesi incrementale a causa della loro architettura completamente parallela, come nel caso dei transformer. In questo lavoro, proponiamo Incremental FastPitch, una nuova variante di FastPitch in grado di produrre incrementalmente segmenti Mel di alta qualità, migliorando l'architettura con blocchi FFT basati su segmenti, addestrando con maschere di attenzione vincolate al campo ricettivo e inferendo con stati del modello passati di dimensione fissa. I risultati sperimentali dimostrano che la nostra proposta può produrre una qualità vocale paragonabile a quella del FastPitch parallelo, con una latenza significativamente inferiore che consente tempi di risposta ancora più rapidi per applicazioni vocali in tempo reale.
Le fotocamere DSLR possono ottenere diversi livelli di zoom modificando le distanze delle lenti o sostituendo i tipi di obiettivo. Tuttavia, queste tecniche non sono applicabili sui dispositivi smartphone a causa dei vincoli di spazio. La maggior parte dei produttori di smartphone adotta un sistema di zoom ibrido: tipicamente una fotocamera Wide (W) per bassi livelli di zoom e una fotocamera Telephoto (T) per alti livelli di zoom. Per simulare i livelli di zoom intermedi tra W e T, questi sistemi ritagliano e aumentano digitalmente la risoluzione delle immagini da W, causando una significativa perdita di dettagli. In questo articolo, proponiamo un sistema efficiente per la super-risoluzione con zoom ibrido su dispositivi mobili, che acquisisce una coppia sincrona di scatti W e T e utilizza modelli di machine learning per allineare e trasferire i dettagli da T a W. Inoltre, sviluppiamo un metodo di fusione adattivo che tiene conto delle discrepanze nella profondità di campo, delle occlusioni nella scena, dell'incertezza del flusso e degli errori di allineamento. Per minimizzare il divario di dominio, progettiamo un sistema a doppia fotocamera per smartphone per acquisire input e ground-truth del mondo reale per l'addestramento supervisionato. Il nostro metodo genera un'immagine da 12 megapixel in 500ms su una piattaforma mobile e si confronta favorevolmente con i metodi più avanzati in un'ampia valutazione su scenari reali.