Articoli di ricerca IA selezionati quotidianamente con traduzioni
Le Reti Neurali Convoluzionali (CNN) e i Vision Transformer (ViT) rappresentano i due modelli di base più popolari per l'apprendimento di rappresentazioni visive. Mentre le CNN mostrano una notevole scalabilità con una complessità lineare rispetto alla risoluzione dell'immagine, i ViT le superano in termini di capacità di adattamento nonostante debbano affrontare una complessità quadratica. Un'analisi più approfondita rivela che i ViT raggiungono prestazioni superiori nella modellazione visiva grazie all'incorporazione di campi ricettivi globali e pesi dinamici. Questa osservazione ci motiva a proporre una nuova architettura che eredita questi componenti migliorando al contempo l'efficienza computazionale. A tal fine, traiamo ispirazione dal recentemente introdotto modello di stato spazio e proponiamo il Visual State Space Model (VMamba), che raggiunge una complessità lineare senza sacrificare i campi ricettivi globali. Per affrontare il problema della sensibilità alla direzione, introduciamo il Cross-Scan Module (CSM) per attraversare il dominio spaziale e convertire qualsiasi immagine visiva non causale in sequenze ordinate di patch. I risultati sperimentali estesi confermano che VMamba non solo dimostra capacità promettenti in vari compiti di percezione visiva, ma mostra anche vantaggi più marcati rispetto ai benchmark consolidati all'aumentare della risoluzione dell'immagine. Il codice sorgente è disponibile all'indirizzo https://github.com/MzeroMiko/VMamba.
I modelli di diffusione hanno aperto nuove strade nel campo della generazione di immagini, portando alla proliferazione di modelli di alta qualità condivisi su piattaforme open-source. Tuttavia, una sfida significativa persiste nei sistemi attuali di generazione da testo a immagine, che spesso non sono in grado di gestire input diversificati o sono limitati ai risultati di un singolo modello. I tentativi attuali di unificazione spesso ricadono in due aspetti ortogonali: i) analizzare prompt diversificati nella fase di input; ii) attivare modelli esperti per l'output. Per combinare il meglio di entrambi gli approcci, proponiamo DiffusionGPT, che sfrutta i Large Language Models (LLM) per offrire un sistema di generazione unificato in grado di accogliere senza soluzione di continuità vari tipi di prompt e integrare modelli esperti di dominio. DiffusionGPT costruisce alberi specifici per dominio per vari modelli generativi basandosi su conoscenze pregresse. Quando viene fornito un input, l'LLM analizza il prompt e utilizza gli alberi di pensiero (Trees-of-Thought) per guidare la selezione di un modello appropriato, rilassando così i vincoli di input e garantendo prestazioni eccezionali in diversi domini. Inoltre, introduciamo i Database di Vantaggio, in cui l'albero di pensiero è arricchito con feedback umano, allineando il processo di selezione del modello alle preferenze umane. Attraverso esperimenti e confronti estesi, dimostriamo l'efficacia di DiffusionGPT, evidenziando il suo potenziale per spingere i confini della sintesi di immagini in diversi domini.
Introduciamo SPARse Fine-grained Contrastive Alignment (SPARC), un metodo semplice per il pre-addestramento di rappresentazioni multimodali più dettagliate a partire da coppie immagine-testo. Considerando che più patch di un'immagine spesso corrispondono a singole parole, proponiamo di apprendere un raggruppamento di patch dell'immagine per ogni token nella didascalia. Per raggiungere questo obiettivo, utilizziamo una metrica di similarità sparsa tra le patch dell'immagine e i token linguistici e calcoliamo per ogni token un embedding visivo raggruppato linguisticamente come media ponderata delle patch. I token e gli embedding visivi raggruppati linguisticamente vengono poi confrontati attraverso una perdita dettagliata a livello di sequenza che dipende solo da singoli campioni e non richiede altri campioni del batch come negativi. Ciò consente di apprendere informazioni più dettagliate in modo computazionalmente efficiente. SPARC combina questa perdita dettagliata con una perdita contrastiva tra gli embedding globali di immagine e testo per apprendere rappresentazioni che codificano simultaneamente informazioni globali e locali. Valutiamo approfonditamente il nostro metodo proposto e dimostriamo un miglioramento delle prestazioni rispetto agli approcci concorrenti sia su task a livello di immagine che si basano su informazioni grossolane, ad esempio la classificazione, sia su task a livello di regione che si basano su informazioni dettagliate, ad esempio il retrieval, il rilevamento di oggetti e la segmentazione. Inoltre, SPARC migliora la fedeltà del modello e la generazione di didascalie nei modelli fondamentali di visione e linguaggio.
Come per molti problemi di apprendimento automatico, il progresso dei metodi di generazione di immagini dipende da buone metriche di valutazione. Una delle più popolari è la Distanza di Fréchet Inception (FID). La FID stima la distanza tra una distribuzione di caratteristiche Inception-v3 di immagini reali e quelle di immagini generate dall'algoritmo. Evidenziamo importanti limiti della FID: la scarsa rappresentazione di Inception del contenuto ricco e vario generato dai moderni modelli testo-immagine, le ipotesi di normalità errate e la scarsa complessità campionaria. Sollecitiamo una rivalutazione dell'uso della FID come metrica primaria di qualità per le immagini generate. Dimostriamo empiricamente che la FID contraddice i valutatori umani, non riflette il miglioramento graduale dei modelli testo-immagine iterativi, non cattura i livelli di distorsione e produce risultati inconsistenti quando si varia la dimensione del campione. Proponiamo inoltre una nuova metrica alternativa, CMMD, basata su embedding CLIP più ricchi e sulla distanza di massima discrepanza media con il kernel RBF gaussiano. Si tratta di uno stimatore non distorto che non fa alcuna ipotesi sulla distribuzione di probabilità degli embedding ed è efficiente dal punto di vista campionario. Attraverso esperimenti e analisi approfonditi, dimostriamo che le valutazioni basate sulla FID dei modelli testo-immagine possono essere inaffidabili e che la CMMD offre una valutazione più robusta e affidabile della qualità delle immagini.
Presentiamo SHINOBI, un framework end-to-end per la ricostruzione di forma, materiale e illuminazione a partire da immagini di oggetti acquisite con condizioni di illuminazione, posa e sfondo variabili. Il rendering inverso di un oggetto basato su collezioni di immagini non vincolate rappresenta una sfida di lunga data nel campo della computer vision e della grafica, richiedendo un'ottimizzazione congiunta di forma, radianza e posa. Dimostriamo che una rappresentazione implicita della forma basata su una codifica hash multi-risoluzione consente una ricostruzione della forma più rapida e robusta, con un'ottimizzazione congiunta dell'allineamento della fotocamera che supera i lavori precedenti. Inoltre, per abilitare la modifica dell'illuminazione e della riflettanza dell'oggetto (ovvero del materiale), ottimizziamo congiuntamente il BRDF e l'illuminazione insieme alla forma dell'oggetto. Il nostro metodo è indipendente dalla classe e funziona su collezioni di immagini di oggetti in contesti reali, producendo asset 3D riluminabili per diversi casi d'uso come AR/VR, film, giochi, ecc. Pagina del progetto: https://shinobi.aengelhardt.com Video: https://www.youtube.com/watch?v=iFENQ6AcYd8&feature=youtu.be
L'obiettivo di questo articolo è generare audio realistico con un vocoder basato su diffusione, leggero e veloce, denominato FreGrad. Il nostro framework è composto dai seguenti tre componenti chiave: (1) Utilizziamo la trasformata wavelet discreta che scompone una forma d'onda complessa in wavelet sub-band, aiutando FreGrad a operare su uno spazio di caratteristiche semplice e conciso, (2) Progettiamo una convoluzione dilatata consapevole della frequenza che migliora la consapevolezza delle frequenze, portando alla generazione di un parlato con informazioni di frequenza accurate, e (3) Introduciamo una serie di accorgimenti che migliorano la qualità di generazione del modello proposto. Nei nostri esperimenti, FreGrad raggiunge un tempo di addestramento 3,7 volte più veloce e una velocità di inferenza 2,2 volte più rapida rispetto alla nostra baseline, riducendo contemporaneamente le dimensioni del modello di 0,6 volte (solo 1,78M parametri) senza compromettere la qualità dell'output. Campioni audio sono disponibili al seguente link: https://mm.kaist.ac.kr/projects/FreGrad.
La generazione personalizzata di video da testo mira a produrre video di alta qualità guidati da prompt testuali e riferimenti a soggetti. Gli approcci attuali, progettati per singoli soggetti, incontrano difficoltà nel gestire più soggetti, uno scenario più complesso e pratico. In questo lavoro, ci proponiamo di promuovere la personalizzazione di video da testo guidata da più soggetti. Proponiamo CustomVideo, un nuovo framework in grado di generare video che preservano l'identità con la guida di più soggetti. Nello specifico, in primo luogo, favoriamo la co-occorrenza di più soggetti componendoli in un'unica immagine. Inoltre, su un modello di base di diffusione testo-video, progettiamo una strategia di controllo dell'attenzione semplice ma efficace per separare i diversi soggetti nello spazio latente del modello di diffusione. Inoltre, per aiutare il modello a concentrarsi sull'area specifica dell'oggetto, segmentiamo l'oggetto dalle immagini di riferimento fornite e forniamo una maschera dell'oggetto corrispondente per l'apprendimento dell'attenzione. Abbiamo anche raccolto un dataset di generazione di video da testo con più soggetti come benchmark completo, con 69 soggetti individuali e 57 coppie significative. Risultati qualitativi, quantitativi e di studio utente estesi dimostrano la superiorità del nostro metodo rispetto ai precedenti approcci all'avanguardia.