Articoli di ricerca IA selezionati quotidianamente con traduzioni
Introduciamo la diffusione luminosa, un metodo innovativo per migliorare l'illuminazione nei ritratti, ammorbidendo ombre dure e riflessi speculari preservando al contempo l'illuminazione complessiva della scena. Ispirati dai diffusori e dalle velature utilizzati dai fotografi professionisti, il nostro metodo ammorbidisce l'illuminazione partendo da una singola foto ritratto. I precedenti approcci di riluminazione dei ritratti si concentrano sul cambiamento dell'intero ambiente luminoso, sulla rimozione delle ombre (ignorando i forti riflessi speculari) o sull'eliminazione completa delle ombreggiature. Al contrario, proponiamo un metodo basato sull'apprendimento che ci permette di controllare la quantità di diffusione luminosa e applicarla a ritratti scattati in condizioni reali. Inoltre, progettiamo un metodo per generare sinteticamente ombre esterne plausibili con effetti di scattering sub-superficiale, conformandosi alla forma del volto del soggetto. Infine, dimostriamo come il nostro approccio possa aumentare la robustezza di applicazioni di visione di livello superiore, come la stima dell'albedo, la stima della geometria e la segmentazione semantica.
Il ragionamento compositivo è una caratteristica distintiva dell'intelligenza visiva umana; tuttavia, nonostante le dimensioni dei grandi modelli visione-linguaggio, questi faticano a rappresentare semplici composizioni combinando oggetti con i loro attributi. Per misurare questa mancanza di capacità compositiva, progettiamo Cola, un benchmark di recupero testo-immagine per Comporre Oggetti Localizzati con Attributi. Utilizzando Cola come banco di prova, esploriamo progetti di modellizzazione per adattare modelli visione-linguaggio pre-addestrati a ragionare in modo compositivo su più attributi associati a più oggetti. Esploriamo 6 strategie di fine-tuning su 2 modelli visione-linguaggio fondamentali, utilizzando 3 dataset di fine-tuning e 2 benchmark di test (Cola e CREPE). Sorprendentemente, la nostra strategia ottimale di fine-tuning migliora un CLIP da 151M di parametri, che codifica in modo disgiunto immagini e linguaggio durante il pre-addestramento, fino a ottenere prestazioni pari a quelle di un FLAVA da 241M di parametri, che utilizza un encoder trasformatore multimodale durante il pre-addestramento per considerare entrambe le modalità visiva e linguistica. Questa strategia ottimale di fine-tuning è un adattatore multimodale leggero che considera congiuntamente sia le caratteristiche dell'immagine che quelle del linguaggio generate dal modello pre-addestrato. Dimostriamo che questo approccio funziona meglio rispetto a strategie comuni come il prompt/fine-tuning o il tuning di un numero comparabile di livelli unimodali.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità linguistiche straordinarie. GPT-4, basato su LLM avanzati, mostra capacità multimodali eccezionali che vanno oltre i precedenti modelli linguistici visivi. Attribuiamo questo all'uso di LLM più avanzati rispetto ai precedenti modelli multimodali. Purtroppo, l'architettura del modello e le strategie di addestramento di GPT-4 non sono note. Per dotare gli LLM di capacità multimodali, proponiamo X-LLM, che converte le multi-modalità (immagini, audio, video) in lingue straniere utilizzando interfacce X2L e le inserisce in un grande modello linguistico (ChatGLM). Nello specifico, X-LLM allinea più encoder mono-modali congelati e un LLM congelato utilizzando interfacce X2L, dove "X" indica le multi-modalità come immagini, audio e video, e "L" indica le lingue. L'addestramento di X-LLM si compone di tre fasi: (1) Conversione delle informazioni multimodali: la prima fase addestra ciascuna interfaccia X2L per allinearsi separatamente al rispettivo encoder mono-modale, convertendo le informazioni multimodali in lingue. (2) Allineamento delle rappresentazioni X2L con l'LLM: gli encoder mono-modali vengono allineati con l'LLM attraverso le interfacce X2L in modo indipendente. (3) Integrazione delle multi-modalità: tutti gli encoder mono-modali vengono allineati con l'LLM attraverso le interfacce X2L per integrare le capacità multimodali nell'LLM. I nostri esperimenti mostrano che X-LLM dimostra impressionanti capacità di chat multimodale, a volte esibendo comportamenti simili a GPT-4 multimodale su immagini/istruzioni non viste, e ottiene un punteggio relativo dell'84,5% rispetto a GPT-4 su un dataset sintetico di istruzioni multimodali. Abbiamo inoltre condotto test quantitativi sull'uso di LLM per il riconoscimento vocale automatico (ASR) e l'ASR multimodale, con l'obiettivo di promuovere l'era del riconoscimento vocale basato su LLM.
Sebbene la recente e rapida evoluzione delle reti neurali generative 3D abbia notevolmente migliorato la generazione di forme 3D, per gli utenti comuni non è ancora conveniente creare forme 3D e controllare la geometria locale delle forme generate. Per affrontare queste sfide, proponiamo un framework di generazione 3D basato su diffusione -- la diffusione SDF con attenzione locale, per modellare forme 3D plausibili, tramite input di immagini di schizzi 2D. Il nostro metodo è costruito su un modello di diffusione a due stadi. Il primo stadio, denominato diffusione di occupazione, mira a generare un campo di occupazione a bassa risoluzione per approssimare il guscio della forma. Il secondo stadio, denominato diffusione SDF, sintetizza un campo di distanza con segno ad alta risoluzione all'interno dei voxel occupati determinati dal primo stadio per estrarre la geometria fine. Il nostro modello è potenziato da un nuovo meccanismo di attenzione locale consapevole della vista per la generazione di forme condizionate da immagini, che sfrutta le caratteristiche delle patch di immagini 2D per guidare l'apprendimento delle caratteristiche dei voxel 3D, migliorando notevolmente la controllabilità locale e la generalizzabilità del modello. Attraverso esperimenti estesi nei compiti di generazione di forme 3D condizionati da schizzi e da categorie, convalidiamo e dimostriamo la capacità del nostro metodo di fornire forme 3D plausibili e diversificate, nonché la sua superiore controllabilità e generalizzabilità rispetto ai lavori esistenti. Il nostro codice e i modelli addestrati sono disponibili all'indirizzo https://zhengxinyang.github.io/projects/LAS-Diffusion.html.
I modelli di diffusione sono emersi come un pilastro fondamentale dei modelli di base nei domini visivi. Una delle loro applicazioni critiche è risolvere universalmente diverse attività inverse a valle attraverso un singolo prior di diffusione senza dover riaddestrare per ogni compito. La maggior parte delle attività inverse può essere formulata come l'inferenza di una distribuzione a posteriori sui dati (ad esempio, un'immagine completa) dato una misurazione (ad esempio, un'immagine mascherata). Tuttavia, ciò è impegnativo nei modelli di diffusione poiché la natura non lineare e iterativa del processo di diffusione rende la distribuzione a posteriori intrattabile. Per affrontare questa sfida, proponiamo un approccio variazionale che, per progettazione, cerca di approssimare la vera distribuzione a posteriori. Mostriamo che il nostro approccio porta naturalmente a una regolarizzazione mediante il processo di diffusione di denoising (RED-Diff), in cui i denoiser a diversi passaggi temporali impongono contemporaneamente diversi vincoli strutturali sull'immagine. Per valutare il contributo dei denoiser da diversi passaggi temporali, proponiamo un meccanismo di ponderazione basato sul rapporto segnale-rumore (SNR). Il nostro approccio fornisce una nuova prospettiva variazionale per risolvere problemi inversi con modelli di diffusione, permettendoci di formulare il campionamento come un'ottimizzazione stocastica, in cui è possibile applicare semplicemente solutori pronti all'uso con iterazioni leggere. I nostri esperimenti per attività di restauro delle immagini come l'inpainting e la superrisoluzione dimostrano i punti di forza del nostro metodo rispetto ai modelli di diffusione basati su campionamento all'avanguardia.
I moderni generatori producono video di volti parlanti con livelli impressionanti di fotorealismo, aprendo la strada a nuove esperienze utente come la videoconferenza con budget di banda limitati. La loro adozione sicura, tuttavia, richiede un meccanismo per verificare se il video generato è affidabile. Ad esempio, per la videoconferenza è necessario identificare i casi in cui un ritratto video sintetico utilizza l'aspetto di un individuo senza il suo consenso. Definiamo questo compito come "fingerprinting degli avatar". Proponiamo di affrontarlo sfruttando le firme del movimento facciale uniche per ogni persona. Nello specifico, apprendiamo un embedding in cui le firme del movimento di un'identità sono raggruppate insieme e allontanate da quelle di altre identità, indipendentemente dall'aspetto nel video sintetico. Gli algoritmi di fingerprinting degli avatar saranno cruciali man mano che i generatori di volti parlanti diventano più diffusi, eppure non esistono dataset su larga scala per questo nuovo compito. Pertanto, contribuiamo con un ampio dataset di persone che recitano monologhi brevi sia scriptati che improvvisati, accompagnati da video sintetici in cui generiamo video di una persona utilizzando l'aspetto facciale di un'altra. Pagina del progetto: https://research.nvidia.com/labs/nxp/avatar-fingerprinting/.
Le pagine web sono state una risorsa ricca e scalabile per attività di visione-linguaggio e solo linguaggio. Tuttavia, vengono conservati solo frammenti di pagine web: coppie immagine-didascalia, articoli di testo lunghi o HTML grezzo, mai tutti nello stesso luogo. Di conseguenza, i compiti legati alle pagine web hanno ricevuto poca attenzione e i dati strutturati immagine-testo sono rimasti sottoutilizzati. Per studiare la comprensione multimodale delle pagine web, introduciamo la suite Wikipedia Webpage (WikiWeb2M) di 2 milioni di pagine. Verifichiamo la sua utilità su tre compiti generativi: generazione di descrizioni di pagine, riassunto di sezioni e creazione di didascalie contestuali per immagini. Progettiamo un nuovo meccanismo di attenzione chiamato Prefix Global, che seleziona i contenuti di immagine e testo più rilevanti come token globali per prestare attenzione al resto della pagina web come contesto. Utilizzando la struttura della pagina per separare tali token, esso performa meglio dell'attenzione completa con una complessità computazionale inferiore. Gli esperimenti dimostrano che le nuove annotazioni di WikiWeb2M migliorano le prestazioni dei compiti rispetto ai dati di lavori precedenti. Includiamo anche ablazioni sulla lunghezza delle sequenze, le caratteristiche di input e la dimensione del modello.
Presentiamo un metodo di deep learning per il controllo composito e guidato da task del movimento di personaggi simulati fisicamente. A differenza degli approcci esistenti basati sui dati che utilizzano il reinforcement learning per imitare movimenti completi del corpo, apprendiamo movimenti disaccoppiati per parti specifiche del corpo da più movimenti di riferimento simultaneamente e direttamente, sfruttando l'uso di più discriminatori in una configurazione simile a una GAN. In questo processo, non è necessario alcun lavoro manuale per produrre movimenti di riferimento compositi per l'apprendimento. Invece, la politica di controllo esplora autonomamente come i movimenti compositi possano essere combinati automaticamente. Consideriamo inoltre più ricompense specifiche per task e addestriamo una singola politica di controllo multi-obiettivo. A tal fine, proponiamo un nuovo framework per l'apprendimento multi-obiettivo che bilancia in modo adattivo l'apprendimento di movimenti disparati da più fonti e più obiettivi di controllo orientati al raggiungimento di scopi. Inoltre, poiché i movimenti compositi sono tipicamente estensioni di comportamenti più semplici, introduciamo un metodo efficiente in termini di campioni per addestrare politiche di controllo composite in modo incrementale, in cui riutilizziamo una politica pre-addestrata come meta politica e addestriamo una politica cooperativa che adatta la meta politica per nuovi task compositi. Dimostriamo l'applicabilità del nostro approccio su una varietà di task multi-obiettivo impegnativi che coinvolgono sia l'imitazione di movimenti compositi che il controllo multi-obiettivo orientato al raggiungimento di scopi.