Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo Voyager, il primo agente di apprendimento permanente incarnato e alimentato da LLM in Minecraft che esplora continuamente il mondo, acquisisce abilità diverse e fa nuove scoperte senza intervento umano. Voyager è composto da tre componenti chiave: 1) un curriculum automatico che massimizza l'esplorazione, 2) una biblioteca di abilità in continua crescita contenente codice eseguibile per memorizzare e recuperare comportamenti complessi, e 3) un nuovo meccanismo di prompting iterativo che incorpora feedback ambientali, errori di esecuzione e auto-verifica per il miglioramento dei programmi. Voyager interagisce con GPT-4 tramite query in modalità blackbox, evitando la necessità di fine-tuning dei parametri del modello. Le abilità sviluppate da Voyager sono temporalmente estese, interpretabili e composizionali, il che amplifica rapidamente le capacità dell'agente e mitiga il problema della dimenticanza catastrofica. Empiricamente, Voyager dimostra una forte capacità di apprendimento permanente in contesto e mostra un'eccezionale competenza nel giocare a Minecraft. Ottiene 3,3 volte più oggetti unici, percorre distanze 2,3 volte più lunghe e sblocca i principali traguardi dell'albero tecnologico fino a 15,3 volte più velocemente rispetto ai precedenti SOTA. Voyager è in grado di utilizzare la biblioteca di abilità apprese in un nuovo mondo di Minecraft per risolvere compiti nuovi da zero, mentre altre tecniche faticano a generalizzare. Abbiamo reso open-source il nostro codice completo e i prompt all'indirizzo https://voyager.minedojo.org/.
Il campionamento per distillazione del punteggio (Score Distillation Sampling, SDS) ha dimostrato un grande potenziale nella generazione di modelli 3D a partire da testo, sfruttando modelli di diffusione pre-addestrati su larga scala per la generazione di immagini da testo. Tuttavia, questo approccio soffre di problemi come sovrasaturazione, eccessiva levigatezza e bassa diversità. In questo lavoro, proponiamo di modellare il parametro 3D come una variabile casuale anziché come una costante, come avviene in SDS, e presentiamo la distillazione variazionale del punteggio (Variational Score Distillation, VSD), un framework variazionale basato su particelle che spiega e affronta i suddetti problemi nella generazione di modelli 3D da testo. Dimostriamo che SDS è un caso particolare di VSD e produce campioni scadenti sia con pesi CFG piccoli che grandi. Al contrario, VSD funziona bene con vari pesi CFG, come il campionamento ancestrale dai modelli di diffusione, e migliora simultaneamente la diversità e la qualità dei campioni con un peso CFG comune (ad esempio, 7.5). Presentiamo inoltre vari miglioramenti nello spazio di progettazione per la generazione di modelli 3D da testo, come la pianificazione temporale della distillazione e l'inizializzazione della densità, che sono ortogonali all'algoritmo di distillazione ma non ancora ben esplorati. Il nostro approccio complessivo, denominato ProlificDreamer, è in grado di generare rendering ad alta risoluzione (ad esempio, 512x512) e NeRF ad alta fedeltà con strutture ricche ed effetti complessi (ad esempio, fumo e gocce). Inoltre, inizializzati da NeRF, i mesh raffinati da VSD sono dettagliati in modo meticoloso e fotorealistici. Pagina del progetto: https://ml.cs.tsinghua.edu.cn/prolificdreamer/
Un metodo emergente per migliorare economicamente un modello linguistico più debole consiste nel perfezionarlo (finetuning) sugli output di un modello più potente, come un sistema proprietario quale ChatGPT (ad esempio, Alpaca, Self-Instruct e altri). Questo approccio mira a imitare in modo economico le capacità del modello proprietario utilizzando un modello open-source più debole. In questo lavoro, analizziamo criticamente tale approccio. Inizialmente, perfezioniamo una serie di modelli linguistici (LM) che imitano ChatGPT, variando le dimensioni del modello di base (1,5B--13B), le fonti dei dati e la quantità di dati di imitazione (0,3M--150M token). Successivamente, valutiamo i modelli utilizzando valutatori umani e benchmark canonici di NLP. Inizialmente, siamo rimasti sorpresi dalla qualità degli output dei nostri modelli di imitazione: sembrano molto migliori nel seguire le istruzioni, e i valutatori umani considerano i loro output competitivi rispetto a ChatGPT. Tuttavia, conducendo valutazioni automatiche più mirate, scopriamo che i modelli di imitazione riducono poco o nulla il divario tra il modello di base e ChatGPT su compiti che non sono ampiamente supportati nei dati di imitazione. Dimostriamo che queste discrepanze di prestazione possono sfuggire ai valutatori umani perché i modelli di imitazione sono abili nel mimare lo stile di ChatGPT, ma non la sua accuratezza fattuale. In conclusione, riteniamo che l'imitazione dei modelli sia una falsa promessa: esiste un divario sostanziale nelle capacità tra i modelli linguistici open e quelli chiusi che, con i metodi attuali, può essere colmato solo utilizzando una quantità ingombrante di dati di imitazione o modelli di base più capaci. A sua volta, sosteniamo che l'azione più efficace per migliorare i modelli open-source sia affrontare la difficile sfida di sviluppare modelli di base migliori, piuttosto che prendere la scorciatoia di imitare i sistemi proprietari.
I risultati eccezionali nella generazione da testo a immagine (T2I) dei modelli Stable Diffusion (SDM) comportano notevoli esigenze computazionali. Per risolvere questo problema, le ricerche recenti sugli SDM efficienti si sono concentrate sulla riduzione del numero di passaggi di campionamento e sull'utilizzo della quantizzazione della rete. In direzione ortogonale a questi approcci, questo studio evidenzia il potenziale della compressione architetturale classica per la sintesi T2I generica, introducendo SDM con distillazione della conoscenza e rimozione di blocchi (BK-SDM). Eliminiamo diversi blocchi residui e di attenzione dalla U-Net degli SDM, ottenendo una riduzione di oltre il 30% nel numero di parametri, nelle operazioni MAC per passaggio di campionamento e nella latenza. Eseguiamo un pre-addestramento basato su distillazione con soli 0,22 milioni di coppie LAION (meno dello 0,1% delle coppie di addestramento complete) su una singola GPU A100. Nonostante siano stati addestrati con risorse limitate, i nostri modelli compatti sono in grado di imitare l'SDM originale, beneficiando della conoscenza trasferita, e ottengono risultati competitivi rispetto a modelli più grandi con miliardi di parametri nel benchmark zero-shot MS-COCO. Inoltre, dimostriamo l'applicabilità dei nostri modelli pre-addestrati leggeri nella generazione personalizzata con il fine-tuning di DreamBooth.
I modelli di diffusione text-to-image possono generare immagini diversificate e ad alta fedeltà basandosi su prompt testuali forniti dall'utente. Ricerche recenti hanno esteso questi modelli per supportare la modifica di immagini guidata da testo. Sebbene la guida testuale rappresenti un'interfaccia intuitiva per l'editing da parte degli utenti, spesso non riesce a garantire il concetto preciso che questi intendono trasmettere. Per affrontare questo problema, proponiamo Custom-Edit, in cui (i) personalizziamo un modello di diffusione con alcune immagini di riferimento e poi (ii) eseguiamo l'editing guidato da testo. La nostra scoperta chiave è che personalizzare solo i parametri rilevanti per il linguaggio con prompt aumentati migliora significativamente la somiglianza con il riferimento mantenendo al contempo la somiglianza con la sorgente. Inoltre, forniamo la nostra ricetta per ciascun processo di personalizzazione e modifica. Confrontiamo metodi di personalizzazione popolari e validiamo i nostri risultati su due metodi di editing utilizzando vari dataset.
I recenti progressi nella generazione musicale sono stati notevolmente avanzati dallo stato dell'arte di MusicLM, che comprende una gerarchia di tre modelli linguistici (LM), rispettivamente per la modellazione semantica, acustica approssimativa e acustica fine. Tuttavia, il campionamento con MusicLM richiede l'elaborazione sequenziale attraverso questi LM per ottenere i token acustici granulari, rendendolo computazionalmente costoso e proibitivo per una generazione in tempo reale. La generazione efficiente di musica con una qualità paragonabile a MusicLM rimane una sfida significativa. In questo articolo, presentiamo MeLoDy (M per musica; L per LM; D per diffusione), un modello di diffusione guidato da LM che genera audio musicali di qualità all'avanguardia, riducendo rispettivamente il 95,7% o il 99,6% dei passaggi in avanti in MusicLM, per campionare musica di 10 secondi o 30 secondi. MeLoDy eredita il LM di livello più alto da MusicLM per la modellazione semantica e applica un nuovo modello di diffusione a doppio percorso (DPD) e un VAE-GAN audio per decodificare efficientemente i token semantici condizionanti in forma d'onda. Il DPD è proposto per modellare simultaneamente l'acustica approssimativa e fine, incorporando le informazioni semantiche in segmenti di latenti in modo efficace tramite cross-attention ad ogni passo di denoising. I nostri risultati sperimentali suggeriscono la superiorità di MeLoDy, non solo nei suoi vantaggi pratici sulla velocità di campionamento e nella generazione infinitamente continuabile, ma anche nella sua musicalità all'avanguardia, qualità audio e correlazione testuale. I nostri campioni sono disponibili su https://Efficient-MeLoDy.github.io/.
I modelli di diffusione text-to-image sono ora in grado di generare immagini che spesso sono indistinguibili da quelle reali. Per generare tali immagini, questi modelli devono comprendere la semantica degli oggetti che vengono loro richiesti di creare. In questo lavoro dimostriamo che, senza alcun addestramento, è possibile sfruttare questa conoscenza semantica all'interno dei modelli di diffusione per trovare corrispondenze semantiche, ovvero posizioni in più immagini che hanno lo stesso significato semantico. Nello specifico, data un'immagine, ottimizziamo gli embedding dei prompt di questi modelli per massimizzare l'attenzione sulle regioni di interesse. Questi embedding ottimizzati catturano informazioni semantiche sulla posizione, che possono poi essere trasferite a un'altra immagine. In questo modo otteniamo risultati alla pari con lo stato dell'arte fortemente supervisionato sul dataset PF-Willow e superiamo significativamente (20,9% in termini relativi per il dataset SPair-71k) qualsiasi metodo esistente debolmente o non supervisionato su PF-Willow, CUB-200 e SPair-71k.
Presentiamo Manifold Diffusion Fields (MDF), un approccio per apprendere modelli generativi di funzioni continue definite su varietà Riemanniane. Sfruttando intuizioni derivanti dall'analisi della geometria spettrale, definiamo un sistema di coordinate intrinseco sulla varietà attraverso le autofunzioni dell'operatore di Laplace-Beltrami. MDF rappresenta le funzioni utilizzando una parametrizzazione esplicita formata da un insieme di coppie input-output multiple. Il nostro approccio consente di campionare funzioni continue su varietà ed è invariante rispetto a trasformazioni rigide e isometriche della varietà. I risultati empirici su diversi dataset e varietà dimostrano che MDF può catturare distribuzioni di tali funzioni con una migliore diversità e fedeltà rispetto ai metodi precedenti.