Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli di diffusione sono i principali motori del progresso nella sintesi di immagini e video, ma soffrono di una velocità di inferenza lenta. I metodi di distillazione, come il recentemente introdotto adversarial diffusion distillation (ADD), mirano a spostare il modello da un'inferenza a molti passaggi a una a singolo passaggio, sebbene a costo di un'ottimizzazione costosa e difficile a causa della sua dipendenza da un discriminatore DINOv2 pre-addestrato e fisso. Introduciamo il Latent Adversarial Diffusion Distillation (LADD), un nuovo approccio di distillazione che supera i limiti dell'ADD. A differenza dell'ADD basato sui pixel, LADD utilizza caratteristiche generative da modelli di diffusione latente pre-addestrati. Questo approccio semplifica l'addestramento e migliora le prestazioni, consentendo la sintesi di immagini ad alta risoluzione con rapporti d'aspetto multipli. Applichiamo LADD a Stable Diffusion 3 (8B) per ottenere SD3-Turbo, un modello veloce che eguaglia le prestazioni dei migliori generatori testo-immagine utilizzando solo quattro passaggi di campionamento non guidati. Inoltre, investigiamo sistematicamente il suo comportamento di scalabilità e dimostriamo l'efficacia di LADD in varie applicazioni come l'editing e l'inpainting di immagini.
Il Reinforcement Learning da Feedback Umano (RLHF) si è dimostrato un metodo efficace per allineare i Modelli Linguistici Pre-addestrati di Grandi Dimensioni (LLMs) con le preferenze umane. Tuttavia, addestrare modelli con RLHF è computazionalmente costoso e un processo complesso. In questo lavoro, studiamo l'RLHF in cui i modelli sottostanti sono addestrati utilizzando il metodo efficiente in termini di parametri di Low-Rank Adaptation (LoRA), introdotto da Hu et al. [2021]. Investigiamo la configurazione del "Reinforcement Learning Efficiente in Parametri" (PERL), in cui eseguiamo l'addestramento del modello di ricompensa e il reinforcement learning utilizzando LoRA. Confrontiamo PERL con il fine-tuning convenzionale (full-tuning) in varie configurazioni per 7 benchmark, inclusi 2 nuovi dataset, di modellazione della ricompensa e reinforcement learning. Troviamo che PERL performa alla pari con l'impostazione convenzionale di RLHF, addestrando più velocemente e con meno memoria. Ciò consente l'alta performance dell'RLHF, riducendo al contempo il carico computazionale che ne limita l'adozione come tecnica di allineamento per i Modelli Linguistici di Grandi Dimensioni. Rilasciamo inoltre 2 nuovi dataset di preferenze thumbs up/down: "Taskmaster Coffee" e "Taskmaster Ticketing" per promuovere la ricerca intorno all'RLHF.
L'aggiornamento efficiente e accurato della conoscenza memorizzata nei Modelli Linguistici di Grande Dimensione (LLM) rappresenta una delle sfide di ricerca più urgenti del momento. Questo articolo presenta Larimar, una nuova architettura ispirata al cervello umano per potenziare gli LLM con una memoria episodica distribuita. La memoria di Larimar consente aggiornamenti dinamici e one-shot della conoscenza senza la necessità di costosi processi di ri-addestramento o fine-tuning. I risultati sperimentali su molteplici benchmark di modifica dei fatti dimostrano che Larimar raggiunge un'accuratezza paragonabile alle baseline più competitive, anche nello scenario impegnativo della modifica sequenziale, ma eccelle anche in velocità, ottenendo accelerazioni di 4-10x a seconda dell'LLM di base, oltre a una maggiore flessibilità grazie all'architettura proposta, che è semplice, indipendente dall'LLM e quindi generale. Inoltre, forniamo meccanismi per la dimenticanza selettiva dei fatti e la generalizzazione della lunghezza del contesto di input con Larimar, dimostrandone l'efficacia.
Presentiamo Stable Video 3D (SV3D) — un modello di diffusione video latente per la generazione ad alta risoluzione di video orbitali multi-vista attorno a un oggetto 3D a partire da immagini. I lavori recenti sulla generazione 3D propongono tecniche per adattare modelli generativi 2D alla sintesi di nuove viste (NVS) e all'ottimizzazione 3D. Tuttavia, questi metodi presentano diversi svantaggi dovuti a viste limitate o a una NVS incoerente, influenzando così le prestazioni nella generazione di oggetti 3D. In questo lavoro, proponiamo SV3D, che adatta un modello di diffusione immagine-video per la sintesi multi-vista e la generazione 3D, sfruttando la generalizzazione e la coerenza multi-vista dei modelli video, aggiungendo inoltre un controllo esplicito della camera per la NVS. Proponiamo anche tecniche di ottimizzazione 3D migliorate per utilizzare SV3D e i suoi output NVS nella generazione immagine-3D. Risultati sperimentali estesi su più dataset, con metriche 2D e 3D nonché uno studio utente, dimostrano che SV3D raggiunge prestazioni all'avanguardia nella NVS e nella ricostruzione 3D rispetto ai lavori precedenti.
Basandosi sui recenti progressi nei modelli di diffusione per la generazione di immagini da testo, la personalizzazione con preservazione dell'identità ha compiuto significativi passi avanti nel catturare accuratamente identità specifiche utilizzando una sola immagine di riferimento. Tuttavia, i metodi esistenti integrano principalmente le immagini di riferimento all'interno dello spazio di embedding del testo, portando a un complesso intreccio di informazioni visive e testuali, che pone sfide nel preservare sia la fedeltà dell'identità che la coerenza semantica. Per affrontare questa sfida, proponiamo Infinite-ID, un paradigma di disaccoppiamento ID-semantica per la personalizzazione con preservazione dell'identità. Nello specifico, introduciamo un addestramento potenziato per l'identità, incorporando un modulo aggiuntivo di cross-attention per le immagini per catturare sufficienti informazioni sull'ID, disattivando contemporaneamente il modulo originale di cross-attention per il testo del modello di diffusione. Ciò garantisce che il flusso delle immagini rappresenti fedelmente l'identità fornita dall'immagine di riferimento, mitigando al contempo le interferenze dall'input testuale. Inoltre, introduciamo un meccanismo di interazione delle feature che combina un modulo di attenzione mista con un'operazione AdaIN-mean per fondere in modo fluido i due flussi. Questo meccanismo non solo migliora la fedeltà dell'identità e la coerenza semantica, ma consente anche un controllo agevole sugli stili delle immagini generate. I risultati sperimentali estesi, sia nella generazione di foto grezze che di immagini stilizzate, dimostrano la superiorità delle prestazioni del nostro metodo proposto.
Presentiamo LightIt, un metodo per il controllo esplicito dell'illuminazione nella generazione di immagini. I recenti metodi generativi mancano di controllo sull'illuminazione, aspetto cruciale per numerosi aspetti artistici della generazione di immagini, come l'impostazione dell'atmosfera generale o dell'aspetto cinematografico. Per superare queste limitazioni, proponiamo di condizionare la generazione su mappe di ombreggiatura e normali. Modelliamo l'illuminazione con un'ombreggiatura a singolo rimbalzo, che include le ombre proiettate. Inizialmente addestriamo un modulo di stima dell'ombreggiatura per generare un dataset di coppie immagini reali e ombreggiature. Successivamente, addestriamo una rete di controllo utilizzando come input l'ombreggiatura e le normali stimate. Il nostro metodo dimostra una generazione di immagini di alta qualità e un controllo dell'illuminazione in numerose scene. Inoltre, utilizziamo il nostro dataset generato per addestrare un modello di rilucentezza che preserva l'identità, condizionato su un'immagine e un'ombreggiatura target. Il nostro metodo è il primo che consente la generazione di immagini con illuminazione controllabile e coerente, ottenendo prestazioni pari ai metodi all'avanguardia specializzati nel rilucentezza.
La codifica visiva costituisce la base dei grandi modelli multimodali (LMM) per la comprensione del mondo visivo. I LMM convenzionali elaborano immagini di dimensioni fisse e risoluzioni limitate, mentre le recenti esplorazioni in questa direzione presentano limitazioni in termini di adattabilità, efficienza e persino correttezza. In questo lavoro, prendiamo inizialmente GPT-4V e LLaVA-1.5 come esempi rappresentativi e evidenziamo difetti sistematici radicati nella loro strategia di codifica visiva. Per affrontare queste sfide, presentiamo LLaVA-UHD, un grande modello multimodale in grado di percepire in modo efficiente immagini con qualsiasi rapporto d'aspetto e ad alta risoluzione. LLaVA-UHD include tre componenti chiave: (1) Una strategia di modularizzazione delle immagini che divide le immagini a risoluzione nativa in sezioni più piccole di dimensioni variabili per una codifica efficiente ed estensibile, (2) un modulo di compressione che riduce ulteriormente i token delle immagini provenienti dai codificatori visivi, e (3) uno schema spaziale per organizzare i token delle sezioni per i LLM. Esperimenti completi dimostrano che LLaVA-UHD supera i LMM consolidati addestrati con 2-3 ordini di grandezza in più di dati su 9 benchmark. In particolare, il nostro modello basato su LLaVA-1.5 336x336 supporta immagini con una risoluzione 6 volte maggiore (672x1088) utilizzando solo il 94% del calcolo di inferenza e raggiunge un miglioramento di 6,4 punti di accuratezza su TextVQA. Inoltre, il modello può essere addestrato in modo efficiente in contesti accademici, entro 23 ore su 8 GPU A100 (rispetto alle 26 ore di LLaVA-1.5). Rendiamo disponibili pubblicamente dati e codice all'indirizzo https://github.com/thunlp/LLaVA-UHD.
La sintesi di oggetti 3D in dominio aperto è rimasta indietro rispetto alla sintesi di immagini a causa della limitata disponibilità di dati e della maggiore complessità computazionale. Per colmare questa lacuna, lavori recenti hanno esplorato la diffusione multi-vista, ma spesso risultano carenti in termini di coerenza 3D, qualità visiva o efficienza. Questo articolo propone MVEdit, che funge da controparte 3D di SDEdit, impiegando il campionamento ancestrale per denoisare congiuntamente immagini multi-vista e produrre mesh testurizzate di alta qualità. Basato su modelli di diffusione 2D preesistenti, MVEdit raggiunge la coerenza 3D attraverso un Adapter 3D che non richiede addestramento, il quale eleva le viste 2D dell'ultimo passo temporale in una rappresentazione 3D coerente, per poi condizionare le viste 2D del passo successivo utilizzando viste renderizzate, senza compromettere la qualità visiva. Con un tempo di inferenza di soli 2-5 minuti, questo framework ottiene un migliore compromesso tra qualità e velocità rispetto alla distillazione del punteggio. MVEdit è altamente versatile ed estendibile, con un'ampia gamma di applicazioni che includono la generazione da testo/immagine a 3D, l'editing da 3D a 3D e la sintesi di texture di alta qualità. In particolare, le valutazioni dimostrano prestazioni all'avanguardia sia nei compiti di generazione da immagine a 3D che nella generazione di texture guidata da testo. Inoltre, introduciamo un metodo per il fine-tuning di modelli di diffusione latente 2D su piccoli dataset 3D con risorse limitate, consentendo una rapida inizializzazione da testo a 3D a bassa risoluzione.
Le ricostruzioni della percezione visiva dall'attività cerebrale sono migliorate enormemente, ma l'utilità pratica di tali metodi è stata limitata. Ciò è dovuto al fatto che tali modelli vengono addestrati in modo indipendente per ogni soggetto, dove ciascun soggetto richiede decine di ore di costosi dati di addestramento fMRI per ottenere risultati di alta qualità. Il presente lavoro dimostra ricostruzioni di alta qualità utilizzando solo 1 ora di dati di addestramento fMRI. Pre-addestriamo il nostro modello su 7 soggetti e poi lo perfezioniamo su dati minimi provenienti da un nuovo soggetto. La nostra innovativa procedura di allineamento funzionale mappa linearmente tutti i dati cerebrali in uno spazio latente condiviso tra i soggetti, seguito da una mappatura non lineare condivisa nello spazio delle immagini CLIP. Successivamente, mappiamo dallo spazio CLIP allo spazio dei pixel perfezionando Stable Diffusion XL per accettare latenti CLIP come input invece del testo. Questo approccio migliora la generalizzazione fuori dal soggetto con dati di addestramento limitati e raggiunge anche metriche all'avanguardia per il recupero e la ricostruzione delle immagini rispetto ai metodi basati su singoli soggetti. MindEye2 dimostra come ricostruzioni accurate della percezione siano possibili con una singola visita alla struttura di risonanza magnetica. Tutto il codice è disponibile su GitHub.
I progressi nel machine learning (ML) sono stati alimentati dal ridimensionamento dei modelli di reti neurali. Questo ridimensionamento è stato reso possibile da imprese ingegneristiche sempre più audaci, necessarie per supportare approcci di ML che richiedono una comunicazione ad alta larghezza di banda tra dispositivi che lavorano in parallelo. In questo lavoro, proponiamo un'architettura modulare co-progettata e un approccio di addestramento per modelli di ML, denominato DIstributed PAth COmposition (DiPaCo). Durante l'addestramento, DiPaCo distribuisce il calcolo attraverso percorsi in un insieme di moduli condivisi. Insieme a un'ottimizzazione ispirata a Local-SGD (DiLoCo) che mantiene i moduli sincronizzati con una comunicazione drasticamente ridotta, il nostro approccio facilita l'addestramento su lavoratori scarsamente connessi ed eterogenei, con un design che garantisce robustezza ai guasti e alle preemption dei lavoratori. Al momento dell'inferenza, è necessario eseguire un solo percorso per ogni input, senza la necessità di alcuna compressione del modello. Consideriamo questo approccio come un primo prototipo verso un nuovo paradigma di apprendimento su larga scala, meno sincrono e più modulare. I nostri esperimenti sul benchmark ampiamente utilizzato C4 mostrano che, per lo stesso numero di passi di addestramento ma con meno tempo di clock, DiPaCo supera le prestazioni di un modello linguistico trasformatore denso da 1 miliardo di parametri scegliendo uno dei 256 percorsi possibili, ciascuno con una dimensione di 150 milioni di parametri.
Esploriamo come la riconciliazione di diversi modelli di base (grandi modelli linguistici e modelli visione-linguaggio) con un nuovo meccanismo di memoria unificata possa affrontare il complesso problema della comprensione video, in particolare catturando le relazioni temporali a lungo termine in video di lunga durata. Nello specifico, l'agente multimodale proposto, VideoAgent: 1) costruisce una memoria strutturata per memorizzare sia le descrizioni generiche degli eventi temporali che gli stati di tracciamento centrati sugli oggetti del video; 2) data una query di task in input, utilizza strumenti come la localizzazione di segmenti video e l'interrogazione della memoria degli oggetti, insieme ad altri modelli di base visivi, per risolvere il task in modo interattivo, sfruttando la capacità zero-shot di utilizzo degli strumenti dei LLM. VideoAgent dimostra prestazioni impressionanti su diversi benchmark di comprensione video a lungo termine, con un aumento medio del 6,6% su NExT-QA e del 26,0% su EgoSchema rispetto ai baseline, riducendo il divario tra i modelli open-source e le controparti private, inclusa Gemini 1.5 Pro.
Il campo del rendering neurale ha registrato progressi significativi con i progressi nei modelli generativi e nelle tecniche di rendering differenziabile. Sebbene la diffusione 2D abbia ottenuto successo, una pipeline unificata per la diffusione 3D rimane ancora da definire. Questo articolo introduce un nuovo framework chiamato LN3Diff per colmare questa lacuna e abilitare una generazione 3D condizionata rapida, di alta qualità e generica. Il nostro approccio sfrutta un'architettura 3D-aware e un autoencoder variazionale (VAE) per codificare l'immagine di input in uno spazio latente strutturato, compatto e 3D. Il latente viene decodificato da un decoder basato su transformer in un campo neurale 3D ad alta capacità. Addestrando un modello di diffusione su questo spazio latente 3D-aware, il nostro metodo raggiunge prestazioni all'avanguardia su ShapeNet per la generazione 3D e dimostra prestazioni superiori nella ricostruzione 3D monoculare e nella generazione 3D condizionata su vari dataset. Inoltre, supera i metodi di diffusione 3D esistenti in termini di velocità di inferenza, non richiedendo ottimizzazione per ogni istanza. Il nostro LN3Diff proposto rappresenta un progresso significativo nella modellazione generativa 3D e promette varie applicazioni nei compiti di visione e grafica 3D.
Questo articolo presenta un nuovo paradigma per la costruzione di modelli generativi 3D scalabili sfruttando modelli di diffusione video pre-addestrati. Il principale ostacolo nello sviluppo di modelli generativi 3D di base è la limitata disponibilità di dati 3D. A differenza di immagini, testi o video, i dati 3D non sono facilmente accessibili e sono difficili da acquisire. Ciò determina una significativa disparità in termini di scala rispetto alle vaste quantità di altri tipi di dati. Per affrontare questo problema, proponiamo di utilizzare un modello di diffusione video, addestrato con grandi volumi di testo, immagini e video, come fonte di conoscenza per i dati 3D. Sbloccando le sue capacità generative multi-vista attraverso un fine-tuning, generiamo un dataset sintetico multi-vista su larga scala per addestrare un modello generativo 3D feed-forward. Il modello proposto, VFusion3D, addestrato su quasi 3 milioni di dati multi-vista sintetici, è in grado di generare un asset 3D da una singola immagine in pochi secondi e raggiunge prestazioni superiori rispetto agli attuali modelli generativi 3D feed-forward allo stato dell'arte, con gli utenti che preferiscono i nostri risultati oltre il 70% delle volte.