Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo "ImageDream", un innovativo modello di diffusione multi-vista basato su prompt di immagini per la generazione di oggetti 3D. ImageDream si distingue per la sua capacità di produrre modelli 3D di qualità superiore rispetto ai metodi all'avanguardia esistenti condizionati da immagini. Il nostro approccio utilizza una coordinazione canonica della fotocamera per gli oggetti nelle immagini, migliorando l'accuratezza della geometria visiva. Il modello è progettato con vari livelli di controllo in ciascun blocco all'interno del modello di diffusione in base all'immagine di input, dove il controllo globale definisce il layout complessivo dell'oggetto e il controllo locale perfeziona i dettagli dell'immagine. L'efficacia di ImageDream è dimostrata attraverso valutazioni estensive utilizzando una lista di prompt standard. Per maggiori informazioni, visitate la nostra pagina del progetto all'indirizzo https://Image-Dream.github.io.
I modelli di diffusione attualmente dominano il campo della sintesi di immagini basata sui dati grazie alla loro scalabilità senza pari su grandi dataset. In questo articolo, identifichiamo e correggiamo diverse cause di un addestramento irregolare e inefficace nella popolare architettura del modello di diffusione ADM, senza alterarne la struttura di alto livello. Osservando cambiamenti incontrollati nelle magnitudini e squilibri sia nelle attivazioni della rete che nei pesi durante l'addestramento, ridisegniamo i livelli della rete per preservare, in media, le magnitudini delle attivazioni, dei pesi e degli aggiornamenti. Scopriamo che l'applicazione sistematica di questa filosofia elimina le derive e gli squilibri osservati, producendo reti notevolmente migliori a parità di complessità computazionale. Le nostre modifiche migliorano il precedente record FID di 2.41 nella sintesi di ImageNet-512, portandolo a 1.81, ottenuto utilizzando un campionamento deterministico veloce. Come contributo indipendente, presentiamo un metodo per impostare i parametri della media mobile esponenziale (EMA) a posteriori, ovvero dopo aver completato l'addestramento. Ciò consente una regolazione precisa della durata dell'EMA senza il costo di eseguire più cicli di addestramento e rivela le sue sorprendenti interazioni con l'architettura della rete, il tempo di addestramento e la guida.
La fedeltà del reilluminamento è limitata sia dalle rappresentazioni geometriche che da quelle dell'aspetto. Per quanto riguarda la geometria, sia gli approcci basati su mesh che quelli volumetrici incontrano difficoltà nel modellare strutture intricate come la geometria 3D dei capelli. Per l'aspetto, i modelli di reilluminamento esistenti sono limitati in termini di fedeltà e spesso troppo lenti per il rendering in tempo reale con ambienti continui ad alta risoluzione. In questo lavoro, presentiamo Relightable Gaussian Codec Avatars, un metodo per costruire avatar di testa reilluminabili ad alta fedeltà che possono essere animati per generare nuove espressioni. Il nostro modello geometrico basato su Gaussiane 3D è in grado di catturare dettagli consistenti in 3D a livello sub-millimetrico, come ciocche di capelli e pori, su sequenze dinamiche del volto. Per supportare in modo unificato i diversi materiali della testa umana, come occhi, pelle e capelli, presentiamo un nuovo modello di aspetto reilluminabile basato sul trasferimento di radianza apprendibile. Insieme alle armoniche sferiche consapevoli dell'illuminazione globale per le componenti diffuse, otteniamo un reilluminamento in tempo reale con riflessioni a tutte le frequenze spaziali utilizzando Gaussiane sferiche. Questo modello di aspetto può essere efficientemente reilluminato sia sotto luce puntiforme che sotto illuminazione continua. Miglioriamo ulteriormente la fedeltà delle riflessioni degli occhi e abilitiamo il controllo esplicito dello sguardo introducendo modelli oculari espliciti reilluminabili. Il nostro metodo supera gli approcci esistenti senza compromettere le prestazioni in tempo reale. Dimostriamo inoltre il reilluminamento in tempo reale degli avatar su un visore VR consumer cablato, mostrando l'efficienza e la fedeltà dei nostri avatar.
Introduciamo X-Adapter, un aggiornatore universale che consente ai moduli plug-and-play pre-addestrati (ad esempio, ControlNet, LoRA) di funzionare direttamente con il modello di diffusione testo-immagine aggiornato (ad esempio, SDXL) senza ulteriore riaddestramento. Raggiungiamo questo obiettivo addestrando una rete aggiuntiva per controllare il modello aggiornato congelato utilizzando nuove coppie di dati testo-immagine. Nel dettaglio, X-Adapter mantiene una copia congelata del vecchio modello per preservare i connettori dei diversi plugin. Inoltre, X-Adapter aggiunge strati di mappatura addestrabili che collegano i decoder di modelli di versioni diverse per il rimappaggio delle feature. Le feature rimappate verranno utilizzate come guida per il modello aggiornato. Per migliorare la capacità di guida di X-Adapter, adottiamo una strategia di addestramento con testo nullo per il modello aggiornato. Dopo l'addestramento, introduciamo anche una strategia di denoising a due fasi per allineare i latenti iniziali di X-Adapter e del modello aggiornato. Grazie alle nostre strategie, X-Adapter dimostra una compatibilità universale con vari plugin e consente anche ai plugin di versioni diverse di lavorare insieme, ampliando così le funzionalità della comunità di diffusione. Per verificare l'efficacia del metodo proposto, conduciamo ampi esperimenti e i risultati mostrano che X-Adapter può facilitare un'applicazione più ampia nel modello di diffusione fondamentale aggiornato.
I modelli linguistici multimodali di grandi dimensioni (MLLM) hanno attirato una significativa attenzione grazie alla loro forte capacità di comprensione multimodale. Tuttavia, i lavori esistenti si basano pesantemente su encoder specifici per ciascuna modalità, che di solito differiscono nell'architettura e sono limitati alle modalità comuni. In questo articolo, presentiamo OneLLM, un MLLM che allinea otto modalità al linguaggio utilizzando un framework unificato. Raggiungiamo questo obiettivo attraverso un encoder multimodale unificato e una pipeline progressiva di allineamento multimodale. Nel dettaglio, addestriamo prima un modulo di proiezione delle immagini per connettere un encoder visivo con l'LLM. Successivamente, costruiamo un modulo di proiezione universale (UPM) mescolando più moduli di proiezione delle immagini e utilizzando il routing dinamico. Infine, allineiamo progressivamente più modalità all'LLM con l'UPM. Per sfruttare appieno il potenziale di OneLLM nel seguire le istruzioni, abbiamo anche curato un dataset completo di istruzioni multimodali, includendo 2 milioni di elementi provenienti da immagini, audio, video, nuvole di punti, mappe di profondità/normali, IMU e attività cerebrale fMRI. OneLLM è valutato su 25 benchmark diversi, che comprendono compiti come la descrizione multimodale, il question answering e il ragionamento, dove dimostra prestazioni eccellenti. Codice, dati, modello e demo online sono disponibili all'indirizzo https://github.com/csuhan/OneLLM.
I modelli di diffusione hanno recentemente rivoluzionato il campo della sintesi di immagini grazie alla loro capacità di generare immagini fotorealistiche. Tuttavia, uno dei principali svantaggi dei modelli di diffusione è che il processo di generazione delle immagini è costoso. Una grande rete immagine-immagine deve essere applicata molte volte per affinare iterativamente un'immagine partendo da rumore casuale. Sebbene molti lavori recenti propongano tecniche per ridurre il numero di passaggi necessari, generalmente trattano la rete di denoising sottostante come una scatola nera. In questo lavoro, investigiamo il comportamento degli strati all'interno della rete e scopriamo che 1) l'output degli strati cambia in modo fluido nel tempo, 2) gli strati mostrano schemi distinti di cambiamento e 3) il cambiamento da un passaggio all'altro è spesso molto piccolo. Ipotesizziamo che molti calcoli degli strati nella rete di denoising siano ridondanti. Sfruttando ciò, introduciamo il caching a blocchi, in cui riutilizziamo gli output dei blocchi di strati dei passaggi precedenti per accelerare l'inferenza. Inoltre, proponiamo una tecnica per determinare automaticamente gli schemi di caching in base ai cambiamenti di ciascun blocco nel tempo. Nei nostri esperimenti, dimostriamo attraverso FID, valutazione umana e analisi qualitativa che il Block Caching consente di generare immagini con una qualità visiva superiore a parità di costo computazionale. Lo dimostriamo per diversi modelli all'avanguardia (LDM e EMU) e risolutori (DDIM e DPM).
Presentiamo LooseControl per consentire un condizionamento generalizzato della profondità nella generazione di immagini basata su modelli di diffusione. ControlNet, lo stato dell'arte per la generazione di immagini condizionate dalla profondità, produce risultati notevoli ma si basa sull'accesso a mappe di profondità dettagliate per la guida. Creare tali mappe di profondità precise, in molti scenari, è impegnativo. Questo articolo introduce una versione generalizzata del condizionamento della profondità che abilita numerosi nuovi flussi di lavoro per la creazione di contenuti. Nello specifico, permettiamo (C1) il controllo dei confini della scena per specificare in modo approssimativo le scene con sole condizioni al contorno, e (C2) il controllo tramite box 3D per specificare le posizioni di layout degli oggetti target piuttosto che la forma e l'aspetto esatti degli oggetti. Utilizzando LooseControl, insieme alla guida testuale, gli utenti possono creare ambienti complessi (ad esempio, stanze, vedute stradali, ecc.) specificando solo i confini della scena e le posizioni degli oggetti principali. Inoltre, forniamo due meccanismi di editing per affinare i risultati: (E1) l'editing tramite box 3D consente all'utente di perfezionare le immagini modificando, aggiungendo o rimuovendo box mantenendo invariato lo stile dell'immagine. Ciò produce cambiamenti minimi a parte quelli indotti dai box modificati. (E2) L'editing degli attributi propone possibili direzioni di modifica per cambiare un aspetto particolare della scena, come la densità complessiva degli oggetti o un oggetto specifico. Test estesi e confronti con i baseline dimostrano la generalità del nostro metodo. Crediamo che LooseControl possa diventare uno strumento di progettazione importante per creare facilmente ambienti complessi e possa essere esteso ad altre forme di canali di guida. Il codice e ulteriori informazioni sono disponibili all'indirizzo https://shariqfarooq123.github.io/loose-control/.
Le tecniche di personalizzazione per i modelli di testo-immagine hanno aperto la strada a una vasta gamma di applicazioni precedentemente irraggiungibili, consentendo la generazione di concetti specifici in contesti e stili diversi. Sebbene i metodi esistenti facilitino una personalizzazione ad alta fedeltà per singoli concetti o un insieme limitato e predefinito di essi, non riescono a raggiungere la scalabilità, in cui un singolo modello può rappresentare senza soluzione di continuità innumerevoli concetti. In questo articolo, affrontiamo un nuovo problema chiamato Personalizzazione Modulare, con l'obiettivo di fondere in modo efficiente modelli personalizzati che sono stati ottimizzati in modo indipendente per singoli concetti. Ciò consente al modello fuso di sintetizzare congiuntamente i concetti in un'unica immagine senza compromettere la fedeltà o incorrere in costi computazionali aggiuntivi. Per affrontare questo problema, introduciamo l'Adattamento Ortogonale, un metodo progettato per incoraggiare i modelli personalizzati, che non hanno accesso reciproco durante la fase di ottimizzazione, ad avere pesi residui ortogonali. Ciò garantisce che, durante l'inferenza, i modelli personalizzati possano essere sommati con un'interferenza minima. Il nostro metodo proposto è sia semplice che versatile, applicabile a quasi tutti i pesi ottimizzabili nell'architettura del modello. Attraverso un'ampia serie di valutazioni quantitative e qualitative, il nostro metodo supera costantemente le baseline rilevanti in termini di efficienza e conservazione dell'identità, dimostrando un significativo balzo in avanti verso la personalizzazione scalabile dei modelli di diffusione.
La modifica di contenuti visivi nei video rimane una sfida significativa, caratterizzata da due problemi principali: 1) un controllo diretto e semplice da parte dell'utente per ottenere 2) risultati di editing naturali, privi di distorsioni antiestetiche e artefatti dopo aver modificato forma, espressione e disposizione. Ispirati da DragGAN, una recente tecnica di editing basata su immagini di tipo "drag", affrontiamo i suddetti problemi proponendo DragVideo, dove viene adottata un'interazione utente simile per modificare il contenuto video mantenendo la coerenza temporale. Potenziato dai recenti modelli di diffusione come in DragDiffusion, DragVideo include il nuovo metodo di editing Drag-on-Video U-Net (DoVe), che ottimizza i latenti video diffusi generati da una video U-Net per raggiungere il controllo desiderato. Nello specifico, utilizziamo il fine-tuning Sample-specific LoRA e il controllo Mutual Self-Attention per garantire una ricostruzione fedele del video tramite il metodo DoVe. Presentiamo inoltre una serie di esempi di test per l'editing video di tipo "drag" e conduciamo esperimenti approfonditi su un'ampia gamma di compiti di editing complessi, come la modifica del movimento, dello scheletro, ecc., evidenziando la versatilità e la generalità di DragVideo. I nostri codici, inclusa l'interfaccia utente web di DragVideo, verranno rilasciati.
In questa epoca, il successo dei modelli linguistici su larga scala e dei modelli di generazione di immagini da testo può essere attribuito alla spinta propulsiva dei dataset su larga scala. Tuttavia, nel campo della visione 3D, sebbene siano stati compiuti progressi significativi con modelli addestrati su dati sintetici e reali su larga scala come Objaverse e MVImgNet, un livello simile di avanzamento non è stato osservato nel dominio dei task centrati sull’essere umano, in parte a causa della mancanza di un dataset umano su larga scala. I dataset esistenti di acquisizione 3D ad alta fedeltà di esseri umani rimangono di dimensioni medie a causa delle significative sfide legate all’acquisizione di dati 3D umani di alta qualità su larga scala. Per colmare questa lacuna, presentiamo MVHumanNet, un dataset che comprende sequenze di azioni umane multi-view di 4.500 identità umane. L’obiettivo principale del nostro lavoro è la raccolta di dati umani che presentano un ampio numero di identità diverse e abiti quotidiani utilizzando un sistema di acquisizione umana multi-view, che facilita una raccolta dati facilmente scalabile. Il nostro dataset contiene 9.000 outfit quotidiani, 60.000 sequenze di movimento e 645 milioni di frame con annotazioni estese, tra cui maschere umane, parametri della telecamera, keypoint 2D e 3D, parametri SMPL/SMPLX e descrizioni testuali corrispondenti. Per esplorare il potenziale di MVHumanNet in vari task visivi 2D e 3D, abbiamo condotto studi pilota sul riconoscimento di azioni coerenti tra le viste, la ricostruzione NeRF umana, la generazione di immagini umane non vincolate alla vista guidata da testo, nonché la generazione di immagini umane 2D non vincolate alla vista e la generazione di avatar 3D. Esperimenti estesi dimostrano i miglioramenti delle prestazioni e le applicazioni efficaci resi possibili dalla scala fornita da MVHumanNet. In quanto dataset 3D umano più ampio attualmente disponibile, speriamo che il rilascio dei dati di MVHumanNet con annotazioni possa favorire ulteriori innovazioni nel dominio dei task 3D centrati sull’essere umano su larga scala.
I metodi di ricostruzione 3D come i Neural Radiance Fields (NeRF) eccellono nel rendering di nuove viste fotorealistiche di scene complesse. Tuttavia, il recupero di un NeRF di alta qualità richiede tipicamente decine o centinaia di immagini di input, risultando in un processo di acquisizione dispendioso in termini di tempo. Presentiamo ReconFusion per ricostruire scene del mondo reale utilizzando solo poche foto. Il nostro approccio sfrutta un prior di diffusione per la sintesi di nuove viste, addestrato su dataset sintetici e multiview, che regolarizza una pipeline di ricostruzione 3D basata su NeRF per pose della camera non catturate dal set di immagini di input. Il nostro metodo sintetizza geometria e texture realistiche nelle regioni sottodeterminate, preservando al contempo l'aspetto delle regioni osservate. Eseguiamo una valutazione approfondita su vari dataset del mondo reale, inclusi scene forward-facing e a 360 gradi, dimostrando significativi miglioramenti delle prestazioni rispetto ai precedenti approcci di ricostruzione NeRF con poche viste.
La modellazione basata su agenti esiste da decenni ed è stata ampiamente applicata nelle scienze sociali e naturali. L'ambito di questo metodo di ricerca è ora destinato a crescere in modo significativo grazie alle nuove possibilità offerte dai Large Language Model (LLM). I Generative Agent-Based Models (GABM) non sono semplicemente modelli basati su agenti (ABM) classici in cui gli agenti comunicano tra loro. Piuttosto, i GABM sono costruiti utilizzando un LLM per applicare il buon senso alle situazioni, agire in modo "ragionevole", richiamare conoscenze semantiche comuni, produrre chiamate API per controllare tecnologie digitali come app e comunicare sia all'interno della simulazione che con i ricercatori che la osservano dall'esterno. Qui presentiamo Concordia, una libreria progettata per facilitare la costruzione e l'utilizzo di GABM. Concordia rende semplice creare simulazioni mediate dal linguaggio di ambienti fisici o digitali. Gli agenti di Concordia generano il loro comportamento utilizzando un sistema di componenti flessibile che media tra due operazioni fondamentali: chiamate LLM e recupero della memoria associativa. Un agente speciale chiamato Game Master (GM), ispirato ai giochi di ruolo da tavolo, è responsabile di simulare l'ambiente in cui gli agenti interagiscono. Gli agenti compiono azioni descrivendo ciò che desiderano fare in linguaggio naturale. Il GM traduce poi le loro azioni in implementazioni appropriate. In un mondo fisico simulato, il GM verifica la plausibilità fisica delle azioni degli agenti e ne descrive gli effetti. In ambienti digitali che simulano tecnologie come app e servizi, il GM può gestire chiamate API per integrarsi con strumenti esterni come assistenti AI generali (ad esempio, Bard, ChatGPT) e app digitali (ad esempio, Calendario, Email, Ricerca, ecc.). Concordia è stata progettata per supportare una vasta gamma di applicazioni, sia nella ricerca scientifica che nella valutazione delle prestazioni di servizi digitali reali, simulando utenti e/o generando dati sintetici.
Proponiamo un metodo per controllare gli attributi materiali degli oggetti come ruvidezza, metallicità, albedo e trasparenza in immagini reali. Il nostro metodo sfrutta il prior generativo dei modelli testo-immagine noti per il loro fotorealismo, utilizzando un valore scalare e istruzioni per modificare le proprietà materiali a basso livello. Per ovviare alla mancanza di dataset con attributi materiali controllati, abbiamo generato un dataset sintetico centrato sugli oggetti con materiali basati su principi fisici. Il fine-tuning di un modello pre-addestrato testo-immagine modificato su questo dataset sintetico ci consente di modificare le proprietà materiali in immagini del mondo reale preservando tutti gli altri attributi. Mostriamo la potenziale applicazione del nostro modello a NeRFs con materiali modificati.
Recentemente, sono stati compiuti significativi progressi nella generazione di movimenti basata su testo, consentendo la creazione di movimenti umani diversificati e di alta qualità che si conformano a descrizioni testuali. Tuttavia, rimane una sfida generare movimenti dettagliati o stilizzati a causa della mancanza di dataset annotati con descrizioni testuali dettagliate. Adottando una strategia divide et impera, proponiamo un nuovo framework denominato Fine-Grained Human Motion Diffusion Model (FG-MDM) per la generazione di movimenti umani. Nello specifico, analizziamo prima le precedenti annotazioni testuali vaghe in descrizioni dettagliate di diverse parti del corpo sfruttando un modello linguistico di grandi dimensioni (GPT-3.5). Utilizziamo poi queste descrizioni dettagliate per guidare un modello di diffusione basato su transformer. FG-MDM è in grado di generare movimenti dettagliati e stilizzati anche al di fuori della distribuzione dei dati di addestramento. I nostri risultati sperimentali dimostrano la superiorità di FG-MDM rispetto ai metodi precedenti, in particolare la forte capacità di generalizzazione. Rilasceremo le nostre annotazioni testuali dettagliate per HumanML3D e KIT.
La nostra comprensione del mondo visivo si concentra su vari assi concettuali che caratterizzano diversi aspetti delle entità visive. Sebbene diversi assi concettuali possano essere facilmente specificati dal linguaggio, ad esempio il colore, le sfumature visive esatte lungo ciascun asse spesso superano i limiti delle articolazioni linguistiche, come uno stile particolare di pittura. In questo lavoro, il nostro obiettivo è apprendere una rappresentazione visiva dei concetti informata dal linguaggio, semplicemente distillando modelli pre-addestrati di visione e linguaggio. Nello specifico, addestriamo un insieme di encoder concettuali per codificare le informazioni pertinenti a un insieme di assi concettuali informati dal linguaggio, con l'obiettivo di riprodurre l'immagine di input attraverso un modello pre-addestrato di testo-immagine (T2I). Per favorire una migliore separazione dei diversi encoder concettuali, ancoriamo gli embedding concettuali a un insieme di embedding testuali ottenuti da un modello pre-addestrato di risposta a domande visive (VQA). Al momento dell'inferenza, il modello estrae gli embedding concettuali lungo vari assi da nuove immagini di test, che possono essere ricomposti per generare immagini con nuove composizioni di concetti visivi. Con una procedura di fine-tuning leggera al momento del test, il modello può anche generalizzare a nuovi concetti non visti durante l'addestramento.
Le interazioni con gli assistenti virtuali iniziano tipicamente con una frase di attivazione seguita da un comando. In questo lavoro, esploriamo la possibilità di rendere queste interazioni più naturali eliminando la necessità di una frase di attivazione. Il nostro obiettivo è determinare se un utente si è rivolto all'assistente virtuale basandoci sui segnali ottenuti dall'audio in streaming registrato dal microfono del dispositivo. Affrontiamo questo compito combinando le ipotesi 1-best e i segnali del decoder di un sistema di riconoscimento automatico del parlato con rappresentazioni acustiche provenienti da un codificatore audio come caratteristiche di input per un modello linguistico di grandi dimensioni (LLM). In particolare, siamo interessati a sistemi efficienti in termini di dati e risorse che richiedono solo una piccola quantità di dati di addestramento e possono operare in scenari in cui è disponibile un solo LLM congelato su un dispositivo. Per questo motivo, il nostro modello viene addestrato su 80k o meno esempi di dati multimodali utilizzando una combinazione di adattamento a basso rango e sintonizzazione del prefisso. Confrontiamo il sistema proposto con baseline unimodali e dimostriamo che l'approccio multimodale raggiunge tassi di errore uguale (EER) più bassi, utilizzando solo una frazione dei dati di addestramento. Mostriamo inoltre che rappresentazioni audio specializzate a bassa dimensionalità portano a EER più bassi rispetto a rappresentazioni audio generali ad alta dimensionalità.