Articoli di ricerca IA selezionati quotidianamente con traduzioni
In questo lavoro, proponiamo MagicDance, un modello basato su diffusione per il trasferimento di movimenti umani 2D ed espressioni facciali su video di danza umana particolarmente complessi. Nello specifico, miriamo a generare video di danza umana con qualsiasi identità target guidati da nuove sequenze di pose, mantenendo invariata l'identità. A tal fine, proponiamo una strategia di addestramento in due fasi per separare i movimenti umani dall'aspetto (ad esempio, espressioni facciali, tonalità della pelle e abbigliamento), che consiste nel pre-addestramento di un blocco di controllo dell'aspetto e nel fine-tuning di un blocco di controllo congiunto aspetto-pose sulle pose di danza umana dello stesso dataset. Il nostro design innovativo consente un controllo robusto dell'aspetto con una parte superiore del corpo, attributi facciali e persino lo sfondo temporalmente coerenti. Il modello generalizza bene anche su identità umane non viste e sequenze di movimenti complessi, senza la necessità di ulteriori fine-tuning con dati aggiuntivi che presentano attributi umani diversi, sfruttando la conoscenza a priori dei modelli di diffusione di immagini. Inoltre, il modello proposto è facile da usare e può essere considerato come un modulo/estensione plug-in per Stable Diffusion. Dimostriamo anche la capacità del modello di generare animazioni 2D in modalità zero-shot, consentendo non solo il trasferimento dell'aspetto da un'identità all'altra, ma anche la stilizzazione in stile cartone animato partendo solo da input di pose. Esperimenti estensivi dimostrano la nostra performance superiore sul dataset TikTok.
I modelli di sintesi vocale basati su Large Language Models (LLM) sono stati ampiamente adottati nella sintesi vocale zero-shot. Tuttavia, richiedono un ampio volume di dati e presentano le stesse limitazioni dei precedenti modelli vocali autoregressivi, tra cui una velocità di inferenza lenta e una mancanza di robustezza. Questo articolo propone HierSpeech++, un sintetizzatore vocale zero-shot veloce e potente per il text-to-speech (TTS) e la conversione vocale (VC). Abbiamo verificato che i framework di sintesi vocale gerarchica possono migliorare significativamente la robustezza e l'espressività del parlato sintetico. Inoltre, abbiamo migliorato notevolmente la naturalezza e la somiglianza del parlato sintetico anche negli scenari di sintesi vocale zero-shot. Per il text-to-speech, adottiamo il framework text-to-vec, che genera una rappresentazione vocale auto-supervisionata e una rappresentazione F0 basata su rappresentazioni testuali e prompt di prosodia. Successivamente, HierSpeech++ genera il parlato a partire dal vettore generato, F0 e prompt vocale. Introduciamo inoltre un framework efficiente di super-risoluzione vocale da 16 kHz a 48 kHz. I risultati sperimentali hanno dimostrato che il variational autoencoder gerarchico può essere un potente sintetizzatore vocale zero-shot, superando i modelli basati su LLM e su diffusione. Inoltre, abbiamo raggiunto la prima sintesi vocale zero-shot di qualità pari a quella umana. Campioni audio e codice sorgente sono disponibili su https://github.com/sh-lee-prml/HierSpeechpp.
Proponiamo un metodo per consentire l'estrazione precisa e estremamente rapida di mesh dal 3D Gaussian Splatting. Il Gaussian Splatting è diventato recentemente molto popolare poiché produce rendering realistici ed è significativamente più veloce da addestrare rispetto alle NeRF. Tuttavia, è complesso estrarre una mesh dai milioni di piccoli gaussiani 3D, poiché questi tendono a essere disorganizzati dopo l'ottimizzazione e finora non è stato proposto alcun metodo. Il nostro primo contributo chiave è un termine di regolarizzazione che incoraggia i gaussiani ad allinearsi bene con la superficie della scena. Introduciamo poi un metodo che sfrutta questo allineamento per estrarre una mesh dai gaussiani utilizzando la ricostruzione di Poisson, che è veloce, scalabile e preserva i dettagli, a differenza dell'algoritmo Marching Cubes solitamente applicato per estrarre mesh dalle SDF neurali. Infine, introduciamo una strategia di raffinamento opzionale che vincola i gaussiani alla superficie della mesh e ottimizza congiuntamente questi gaussiani e la mesh attraverso il rendering del Gaussian Splatting. Ciò consente una facile modifica, scultura, rigging, animazione, composizione e riluminazione dei gaussiani utilizzando software tradizionali, manipolando la mesh invece dei gaussiani stessi. Recuperare una mesh modificabile per il rendering realistico richiede pochi minuti con il nostro metodo, rispetto alle ore necessarie con i metodi all'avanguardia sulle SDF neurali, garantendo al contempo una migliore qualità di rendering.
Nonostante i recenti e impressionanti progressi nei modelli di diffusione testo-immagine, ottenere immagini di alta qualità spesso richiede l'ingegnerizzazione dei prompt da parte di esseri umani che hanno sviluppato competenze nel loro utilizzo. In questo lavoro, presentiamo NeuroPrompts, un framework adattivo che migliora automaticamente il prompt di un utente per aumentare la qualità delle generazioni prodotte dai modelli testo-immagine. Il nostro framework utilizza il decoding testuale vincolato con un modello linguistico pre-addestrato che è stato adattato per generare prompt simili a quelli prodotti da ingegneri di prompt umani. Questo approccio consente generazioni testo-immagine di qualità superiore e offre all'utente il controllo sulle caratteristiche stilistiche attraverso la specificazione di un insieme di vincoli. Dimostriamo l'utilità del nostro framework creando un'applicazione interattiva per il miglioramento dei prompt e la generazione di immagini utilizzando Stable Diffusion. Inoltre, conduciamo esperimenti utilizzando un ampio dataset di prompt ingegnerizzati da esseri umani per la generazione testo-immagine e mostriamo che il nostro approccio produce automaticamente prompt migliorati che risultano in una qualità dell'immagine superiore. Rendiamo pubblicamente disponibili il nostro codice, un video dimostrativo e un'istanza live demo di NeuroPrompts.
Presentiamo un metodo per creare cursori concettuali interpretabili che consentono un controllo preciso sugli attributi nelle generazioni di immagini da modelli di diffusione. Il nostro approccio identifica una direzione parametrica a basso rango corrispondente a un concetto, minimizzando al contempo l'interferenza con altri attributi. Un cursore viene creato utilizzando un piccolo insieme di prompt o immagini campione; pertanto, le direzioni dei cursori possono essere generate sia per concetti testuali che visivi. I Cursori Concettuali sono plug-and-play: possono essere composti in modo efficiente e modulati in modo continuo, consentendo un controllo preciso sulla generazione delle immagini. Negli esperimenti quantitativi rispetto alle precedenti tecniche di editing, i nostri cursori mostrano modifiche mirate più forti con un'interferenza inferiore. Mostriamo cursori per condizioni meteorologiche, età, stili ed espressioni, nonché composizioni di cursori. Dimostriamo come i cursori possano trasferire latenti da StyleGAN per un editing intuitivo di concetti visivi per i quali la descrizione testuale è difficile. Troviamo inoltre che il nostro metodo può aiutare a risolvere problemi di qualità persistenti in Stable Diffusion XL, inclusa la riparazione di deformazioni degli oggetti e la correzione di mani distorte. Il nostro codice, dati e cursori addestrati sono disponibili all'indirizzo https://sliders.baulab.info/.
Introduciamo PhysGaussian, un nuovo metodo che integra in modo fluido la dinamica newtoniana fisicamente fondata all’interno di Gaussiane 3D per ottenere una sintesi di movimento innovativa e di alta qualità. Utilizzando un metodo personalizzato dei punti materiali (Material Point Method, MPM), il nostro approccio arricchisce i kernel Gaussiani 3D con attributi cinematici di deformazione e stress meccanico fisicamente significativi, tutti evoluti in linea con i principi della meccanica del continuo. Una caratteristica distintiva del nostro metodo è l’integrazione senza soluzione di continuità tra simulazione fisica e rendering visivo: entrambe le componenti utilizzano gli stessi kernel Gaussiani 3D come loro rappresentazioni discrete. Ciò elimina la necessità di mesh triangolari/tetraedriche, marching cubes, "cage mesh" o qualsiasi altro tipo di embedding geometrico, evidenziando il principio di "ciò che vedi è ciò che simuli (WS^2)". Il nostro metodo dimostra un’eccezionale versatilità su una vasta gamma di materiali—inclusi entità elastiche, metalli, fluidi non newtoniani e materiali granulari—mostrando forti capacità nella creazione di contenuti visivi diversificati con punti di vista e movimenti innovativi. La nostra pagina del progetto è disponibile all’indirizzo: https://xpandora.github.io/PhysGaussian/.
Proponiamo un modello di ricostruzione su larga scala senza pose (PF-LRM) per ricostruire un oggetto 3D a partire da poche immagini non posizionate, anche con una sovrapposizione visiva minima, stimando simultaneamente le pose relative della fotocamera in circa 1,3 secondi su una singola GPU A100. PF-LRM è un metodo altamente scalabile che utilizza blocchi di self-attention per scambiare informazioni tra token 3D dell'oggetto e token 2D delle immagini; prevediamo una nuvola di punti approssimativa per ciascuna vista e successivamente utilizziamo un risolutore differenziabile Perspective-n-Point (PnP) per ottenere le pose della fotocamera. Addestrato su una vasta quantità di dati multi-vista con pose relativi a circa 1 milione di oggetti, PF-LRM mostra una forte capacità di generalizzazione cross-dataset e supera i metodi di base con un ampio margine in termini di accuratezza nella previsione delle pose e qualità della ricostruzione 3D su vari dataset di valutazione non visti. Dimostriamo inoltre l'applicabilità del nostro modello in task downstream di testo/immagine-a-3D con inferenza feed-forward veloce. Il sito web del progetto è disponibile all'indirizzo: https://totoro97.github.io/pf-lrm.
I recenti progressi nella generazione di video da testo hanno sfruttato la potenza dei modelli di diffusione per creare contenuti visivamente accattivanti condizionati da prompt testuali. Tuttavia, questi approcci spesso incontrano elevati costi computazionali e faticano a produrre video con movimenti fisici coerenti. Per affrontare queste problematiche, proponiamo GPT4Motion, un framework senza necessità di addestramento che sfrutta la capacità di pianificazione dei grandi modelli linguistici come GPT, la forza della simulazione fisica di Blender e l'eccellente capacità di generazione di immagini dei modelli di diffusione da testo a immagine per migliorare la qualità della sintesi video. Nello specifico, GPT4Motion utilizza GPT-4 per generare uno script Blender basato su un prompt testuale dell'utente, il quale comanda il motore fisico integrato di Blender per creare componenti di scena fondamentali che racchiudono movimenti fisici coerenti tra i fotogrammi. Questi componenti vengono poi inseriti in Stable Diffusion per generare un video allineato con il prompt testuale. I risultati sperimentali su tre scenari di movimento fisico di base, tra cui caduta e collisione di oggetti rigidi, drappeggio e oscillazione di tessuti e flusso di liquidi, dimostrano che GPT4Motion può generare video di alta qualità in modo efficiente, mantenendo la coerenza del movimento e la consistenza delle entità. GPT4Motion offre nuove prospettive nella ricerca sulla generazione di video da testo, migliorandone la qualità e ampliando gli orizzonti per future esplorazioni.