Articoli di ricerca IA selezionati quotidianamente con traduzioni
Amphion è un toolkit per la generazione di audio, musica e voce. Il suo scopo è supportare la ricerca riproducibile e aiutare i ricercatori e gli ingegneri alle prime armi a muovere i primi passi nel campo della ricerca e dello sviluppo della generazione di audio, musica e voce. Amphion offre una caratteristica unica: visualizzazioni di modelli o architetture classiche. Crediamo che queste visualizzazioni siano utili per i ricercatori e gli ingegneri alle prime armi che desiderano acquisire una migliore comprensione del modello. L'obiettivo principale di Amphion è fornire una piattaforma per studiare la conversione di qualsiasi input in audio generico. Amphion è progettato per supportare singoli task di generazione. Oltre ai task specifici di generazione, Amphion include anche diversi vocoder e metriche di valutazione. Un vocoder è un modulo importante per produrre segnali audio di alta qualità, mentre le metriche di valutazione sono fondamentali per garantire metriche coerenti nei task di generazione. In questo articolo, forniamo una panoramica generale di Amphion.
Rispondere a complesse domande in linguaggio naturale spesso richiede un ragionamento a più passi e l'integrazione di informazioni esterne. Diversi sistemi hanno combinato il recupero di conoscenze con un modello linguistico di grandi dimensioni (LLM) per rispondere a tali domande. Tuttavia, questi sistemi presentano vari casi di fallimento, e non possiamo addestrarli direttamente end-to-end per correggere tali errori, poiché l'interazione con conoscenze esterne non è differenziabile. Per affrontare queste carenze, definiamo un agente LLM in stile ReAct con la capacità di ragionare e agire su conoscenze esterne. Affiniamo ulteriormente l'agente attraverso un metodo simile a ReST che addestra iterativamente sulle traiettorie precedenti, impiegando un apprendimento per rinforzo a batch crescente con feedback AI per un miglioramento e una distillazione continua. Partendo da un modello di grandi dimensioni inizializzato e dopo solo due iterazioni dell'algoritmo, possiamo produrre un modello piccolo fine-tuned che raggiunge prestazioni comparabili su benchmark impegnativi di risposta a domande composizionali con due ordini di grandezza in meno di parametri.
I modelli di diffusione hanno dimostrato un notevole successo in una varietà di compiti generativi downstream, ma rimangono ancora poco esplorati nel campo importante e impegnativo della generazione espressiva di volti parlanti. In questo lavoro, proponiamo un framework chiamato DreamTalk per colmare questa lacuna, che impiega un design meticoloso per sbloccare il potenziale dei modelli di diffusione nella generazione di volti parlanti espressivi. Nello specifico, DreamTalk è composto da tre componenti cruciali: una rete di denoising, un esperto labiale consapevole dello stile e un predittore di stile. La rete di denoising basata su diffusione è in grado di sintetizzare in modo coerente movimenti facciali di alta qualità guidati dall'audio attraverso diverse espressioni. Per migliorare l'espressività e l'accuratezza dei movimenti labiali, introduciamo un esperto labiale consapevole dello stile che può guidare la sincronizzazione labiale tenendo conto degli stili di parlato. Per eliminare la necessità di video o testo di riferimento per l'espressione, viene utilizzato un predittore di stile basato su diffusione per prevedere direttamente dall'audio l'espressione target. In questo modo, DreamTalk può sfruttare i potenti modelli di diffusione per generare volti espressivi in modo efficace e ridurre la dipendenza da costosi riferimenti di stile. I risultati sperimentali dimostrano che DreamTalk è in grado di generare volti parlanti fotorealistici con diversi stili di parlato e di ottenere movimenti labiali accurati, superando le controparti state-of-the-art esistenti.
Il modello Segment Anything (SAM) affronta due compiti di segmentazione pratici ma impegnativi: segmentare qualsiasi cosa (SegAny), che utilizza un punto specifico per prevedere la maschera di un singolo oggetto di interesse, e segmentare tutto (SegEvery), che prevede le maschere per tutti gli oggetti presenti nell'immagine. Ciò che rende SegAny lento per SAM è il suo encoder di immagini pesante, che è stato risolto da MobileSAM attraverso la distillazione di conoscenza disaccoppiata. Tuttavia, il collo di bottiglia dell'efficienza di SegEvery con SAM risiede nel suo decoder di maschere, poiché deve prima generare numerose maschere con prompt ridondanti di ricerca a griglia e poi eseguire un filtraggio per ottenere le maschere finali valide. Proponiamo di migliorarne l'efficienza generando direttamente le maschere finali con solo prompt validi, che possono essere ottenuti attraverso la scoperta di oggetti. Il nostro approccio proposto non solo aiuta a ridurre il tempo totale sul decoder di maschere di almeno 16 volte, ma raggiunge anche prestazioni superiori. Nello specifico, il nostro approccio produce un aumento medio delle prestazioni del 3,6% (42,5% contro 38,9%) per la proposta di oggetti zero-shot sul dataset LVIS con la metrica mask AR@K. I risultati qualitativi mostrano che il nostro approccio genera maschere a grana fine evitando di sovra-segmentare gli oggetti. Questo progetto, che mira a un SegEvery più veloce rispetto al SAM originale, è denominato MobileSAMv2 per distinguerlo da MobileSAM, che mira a un SegAny più veloce. Inoltre, dimostriamo che il nostro nuovo campionamento di prompt è anche compatibile con gli encoder di immagini distillati in MobileSAM, contribuendo a un framework unificato per un SegAny e SegEvery efficienti. Il codice è disponibile allo stesso link del progetto MobileSAM https://github.com/ChaoningZhang/MobileSAM{red{https://github.com/ChaoningZhang/MobileSAM}}.
Questo articolo non è motivato dalla ricerca di innovazione all'interno del meccanismo di attenzione. Piuttosto, si concentra sul superamento dei compromessi esistenti tra accuratezza ed efficienza nel contesto dell'elaborazione delle nuvole di punti, sfruttando il potere della scala. Traendo ispirazione dai recenti progressi nell'apprendimento di rappresentazioni su larga scala in 3D, riconosciamo che le prestazioni del modello sono più influenzate dalla scala che da un design intricato. Pertanto, presentiamo Point Transformer V3 (PTv3), che privilegia semplicità ed efficienza rispetto all'accuratezza di determinati meccanismi che risultano marginali per le prestazioni complessive dopo il ridimensionamento, come la sostituzione della ricerca precisa dei vicini tramite KNN con una mappatura serializzata efficiente delle nuvole di punti organizzate secondo schemi specifici. Questo principio consente un ridimensionamento significativo, espandendo il campo ricettivo da 16 a 1024 punti mantenendo l'efficienza (un aumento di 3x nella velocità di elaborazione e un miglioramento di 10x nell'efficienza della memoria rispetto al suo predecessore, PTv2). PTv3 raggiunge risultati all'avanguardia in oltre 20 task downstream che coprono sia scenari interni che esterni. Ulteriormente potenziato con l'addestramento congiunto su più dataset, PTv3 spinge questi risultati a un livello superiore.
Uno dei componenti chiave all'interno dei modelli di diffusione è la UNet per la previsione del rumore. Mentre diversi lavori hanno esplorato le proprietà di base del decoder della UNet, il suo encoder rimane in gran parte inesplorato. In questo lavoro, conduciamo il primo studio completo dell'encoder della UNet. Analizziamo empiricamente le caratteristiche dell'encoder e forniamo approfondimenti su importanti questioni riguardanti i loro cambiamenti durante il processo di inferenza. In particolare, scopriamo che le caratteristiche dell'encoder cambiano in modo graduale, mentre le caratteristiche del decoder mostrano variazioni sostanziali tra diversi passaggi temporali. Questa scoperta ci ha ispirato a omettere l'encoder in determinati passaggi temporali adiacenti e a riutilizzare ciclicamente le caratteristiche dell'encoder dei passaggi temporali precedenti per il decoder. Inoltre, basandoci su questa osservazione, introduciamo uno schema di propagazione dell'encoder semplice ma efficace per accelerare il campionamento della diffusione per un insieme diversificato di task. Beneficiando del nostro schema di propagazione, siamo in grado di eseguire in parallelo il decoder in determinati passaggi temporali adiacenti. In aggiunta, introduciamo un metodo di iniezione del rumore precedente per migliorare i dettagli della texture nell'immagine generata. Oltre al task standard di generazione di immagini da testo, validiamo il nostro approccio anche su altri task: generazione di video da testo, generazione personalizzata e generazione guidata da riferimento. Senza utilizzare alcuna tecnica di distillazione della conoscenza, il nostro approccio accelera il campionamento sia del modello Stable Diffusion (SD) che del modello DeepFloyd-IF rispettivamente del 41% e del 24%, mantenendo un'elevata qualità di generazione. Il nostro codice è disponibile su https://github.com/hutaiHang/Faster-Diffusion{FasterDiffusion}.
I modelli linguistici di grandi dimensioni (LLM) basati su Transformer spesso impongono limitazioni sulla lunghezza del testo in input per garantire la generazione di risposte fluenti e pertinenti. Questo vincolo ne limita l'applicabilità in scenari che coinvolgono testi lunghi. Proponiamo un nuovo metodo di compressione semantica che consente la generalizzazione a testi 6-8 volte più lunghi, senza comportare costi computazionali significativi o richiedere un fine-tuning. Il nostro framework si ispira alla codifica di sorgente nella teoria dell'informazione e utilizza un modello pre-addestrato per ridurre la ridondanza semantica degli input lunghi prima di passarli agli LLM per compiti downstream. I risultati sperimentali dimostrano che il nostro metodo estende efficacemente la finestra contestuale degli LLM in una gamma di compiti, tra cui risposta a domande, riassunto, apprendimento few-shot e recupero di informazioni. Inoltre, il metodo di compressione semantica proposto mostra una fluenza costante nella generazione del testo, riducendo al contempo il sovraccarico computazionale associato.
Dataset conversazionali di alta qualità sono essenziali per sviluppare modelli di intelligenza artificiale in grado di comunicare con gli utenti. Un modo per favorire interazioni più profonde tra un chatbot e il suo utente è attraverso le persone, aspetti del carattere dell'utente che forniscono intuizioni sulla loro personalità, motivazioni e comportamenti. Addestrare modelli di elaborazione del linguaggio naturale (NLP) su un dataset diversificato e completo basato su persone può portare a modelli conversazionali che creano un legame più profondo con l'utente e mantengono il loro coinvolgimento. In questo articolo, sfruttiamo la potenza dei modelli linguistici di grandi dimensioni (LLM) per creare un ampio dataset conversazionale di alta qualità a partire da un dataset iniziale. Proponiamo un framework architetturale Generatore-Critico per espandere il dataset iniziale, migliorando al contempo la qualità delle sue conversazioni. Il Generatore è un LLM sollecitato a produrre conversazioni. Il Critico è composto da una miscela di LLM esperti che controllano la qualità delle conversazioni generate. Questi esperti selezionano le migliori conversazioni generate, che poi utilizziamo per migliorare il Generatore. Rilasciamo Synthetic-Persona-Chat, composto da 20k conversazioni generate a partire da Persona-Chat. Valutiamo la qualità di Synthetic-Persona-Chat e del nostro framework di generazione su diverse dimensioni attraverso esperimenti estesi, e osserviamo che il tasso di perdita di Synthetic-Persona-Chat rispetto a Persona-Chat durante il test di Turing diminuisce dal 17,2% all'8,8% in tre iterazioni.
Dimostriamo che i metodi non supervisionati esistenti applicati alle attivazioni di modelli linguistici di grandi dimensioni (LLM) non scoprono conoscenza, ma sembrano invece individuare qualsiasi caratteristica delle attivazioni sia più prominente. L'idea alla base dell'elicitazione della conoscenza non supervisionata è che la conoscenza soddisfi una struttura di coerenza, che può essere utilizzata per scoprirla. In primo luogo, dimostriamo teoricamente che caratteristiche arbitrarie (non solo la conoscenza) soddisfano la struttura di coerenza di un particolare metodo leader di elicitazione della conoscenza non supervisionata, la ricerca contrasto-consistente (Burns et al. - arXiv:2212.03827). Successivamente, presentiamo una serie di esperimenti che mostrano contesti in cui i metodi non supervisionati producono classificatori che non predicono la conoscenza, ma piuttosto una diversa caratteristica prominente. Concludiamo che i metodi non supervisionati esistenti per scoprire la conoscenza latente sono insufficienti e contribuiamo con controlli di validità da applicare per valutare futuri metodi di elicitazione della conoscenza. Concettualmente, ipotizziamo che i problemi di identificazione esplorati qui, ad esempio distinguere la conoscenza di un modello da quella di un personaggio simulato, persisteranno per i futuri metodi non supervisionati.
Il Score Distillation Sampling (SDS) ha dimostrato prestazioni notevoli nella generazione condizionata di contenuti 3D. Tuttavia, una comprensione completa della formulazione SDS è ancora carente, ostacolando lo sviluppo della generazione 3D. In questo lavoro, presentiamo un'interpretazione dell'SDS come una combinazione di tre componenti funzionali: termini di disimpegno modale, ricerca modale e riduzione della varianza, e analizziamo le proprietà di ciascuno. Mostriamo che problemi come l'eccessiva levigatezza e la saturazione dei colori derivano dalla carenza intrinseca dei termini di supervisione e riveliamo che il termine di riduzione della varianza introdotto dall'SDS è sub-ottimale. Inoltre, gettiamo luce sull'adozione di un'ampia scala Classifier-Free Guidance (CFG) per la generazione 3D. Sulla base dell'analisi, proponiamo un approccio semplice ma efficace denominato Stable Score Distillation (SSD) che orchestra strategicamente ciascun termine per una generazione 3D di alta qualità. Esperimenti estensivi convalidano l'efficacia del nostro approccio, dimostrando la sua capacità di generare contenuti 3D ad alta fedeltà senza incorrere in problemi come l'eccessiva levigatezza e la sovrasaturazione, anche in condizioni di bassa CFG con la rappresentazione NeRF più impegnativa.
Neural Radiance Field (NeRF) e le sue varianti sono emersi recentemente come metodi di successo per la sintesi di nuove viste e la ricostruzione di scene 3D. Tuttavia, la maggior parte dei modelli NeRF attuali ottiene un'elevata precisione utilizzando dimensioni di modello grandi, oppure raggiunge un'elevata efficienza di memoria a scapito della precisione. Ciò limita l'ambito di applicabilità di un singolo modello, poiché i modelli ad alta precisione potrebbero non essere adatti a dispositivi con memoria limitata, mentre i modelli efficienti in termini di memoria potrebbero non soddisfare requisiti di alta qualità. A tal fine, presentiamo SlimmeRF, un modello che consente compromessi istantanei al momento del test tra dimensione del modello e precisione attraverso un processo di snellimento, rendendo così il modello adatto a scenari con diversi budget computazionali. Raggiungiamo questo obiettivo attraverso un nuovo algoritmo proposto, chiamato Tensorial Rank Incrementation (TRaIn), che aumenta gradualmente il rango della rappresentazione tensoriale del modello durante l'addestramento. Osserviamo inoltre che il nostro modello consente compromessi più efficaci in scenari con viste sparse, a volte raggiungendo persino una precisione maggiore dopo essere stato snellito. Attribuiamo questo al fatto che informazioni errate, come i cosiddetti "floaters", tendono a essere memorizzate nelle componenti corrispondenti a ranghi più elevati. La nostra implementazione è disponibile all'indirizzo https://github.com/Shiran-Yuan/SlimmeRF.
L'obiettivo di questa serie è documentare opinioni e questioni nel campo del machine learning così come si presentano oggi e come si evolvono nel tempo. L'intenzione è condurre periodicamente questo sondaggio fino al giorno del giudizio guidato dalla frenesia delle graffette dell'IA, mantenendo un elenco aggiornato di domande attuali e intervistando nuovi membri della comunità per ogni edizione. In questo numero, abbiamo esplorato le opinioni delle persone sull'IA interpretabile, il valore del benchmarking nella NLP moderna, lo stato dei progressi verso la comprensione del deep learning e il futuro del mondo accademico.