Articoli di ricerca IA selezionati quotidianamente con traduzioni
Sebbene i recenti modelli su larga scala di sintesi vocale da testo (TTS) abbiano compiuto progressi significativi, continuano a mostrare carenze in termini di qualità del parlato, somiglianza e prosodia. Considerando che il parlato comprende in modo intricato vari attributi (ad esempio, contenuto, prosodia, timbro e dettagli acustici) che rappresentano sfide significative per la generazione, un'idea naturale è quella di scomporre il parlato in sottospazi individuali che rappresentano diversi attributi e generarli separatamente. Motivati da ciò, proponiamo NaturalSpeech 3, un sistema TTS con nuovi modelli di diffusione fattorizzati per generare parlato naturale in modo zero-shot. Nello specifico, 1) progettiamo un codec neurale con quantizzazione vettoriale fattorizzata (FVQ) per separare la forma d'onda del parlato in sottospazi di contenuto, prosodia, timbro e dettagli acustici; 2) proponiamo un modello di diffusione fattorizzato per generare gli attributi in ciascun sottospazio seguendo il prompt corrispondente. Con questo design di fattorizzazione, NaturalSpeech 3 può modellare in modo efficace ed efficiente il parlato complesso con sottospazi separati, seguendo un approccio divide et impera. Gli esperimenti dimostrano che NaturalSpeech 3 supera i sistemi TTS all'avanguardia in termini di qualità, somiglianza, prosodia e intelligibilità. Inoltre, otteniamo prestazioni migliori scalando a 1 miliardo di parametri e 200.000 ore di dati di addestramento.
Proponiamo un nuovo framework per filtrare dati immagine-testo sfruttando Modelli Linguistici Multimodali (MLM) affinati. Il nostro approccio supera i principali metodi di filtraggio (ad esempio, CLIPScore) integrando i recenti progressi negli MLM. Progettiamo quattro metriche distinte ma complementari per misurare in modo olistico la qualità dei dati immagine-testo. Viene stabilito un nuovo pipeline per costruire dati di istruzione di alta qualità per affinare gli MLM come filtri di dati. Rispetto a CLIPScore, i nostri filtri MLM producono punteggi più precisi e completi che migliorano direttamente la qualità dei dati filtrati e potenziano le prestazioni dei modelli pre-addestrati. Otteniamo miglioramenti significativi rispetto a CLIPScore su modelli di base popolari (ad esempio, CLIP e BLIP2) e su varie attività downstream. Il nostro filtro MLM può generalizzare a diversi modelli e attività, e può essere utilizzato come sostituto diretto di CLIPScore. Uno studio di ablazione aggiuntivo è fornito per verificare le nostre scelte progettuali per il filtro MLM.
Le leggi di scala svolgono un ruolo fondamentale nel miglioramento sostenibile della qualità dei modelli. Sfortunatamente, i modelli di raccomandazione finora non mostrano tali leggi simili a quelle osservate nel dominio dei grandi modelli linguistici, a causa delle inefficienze dei loro meccanismi di scalabilità. Questa limitazione pone sfide significative nell'adattare questi modelli a dataset del mondo reale sempre più complessi. In questo articolo, proponiamo un'architettura di rete efficace basata esclusivamente su macchine di fattorizzazione impilate e una strategia di scalabilità sinergica, collettivamente denominata Wukong, per stabilire una legge di scala nel dominio della raccomandazione. Il design unico di Wukong rende possibile catturare interazioni diverse e di qualsiasi ordine semplicemente attraverso strati più alti e più ampi. Abbiamo condotto valutazioni estese su sei dataset pubblici, e i nostri risultati dimostrano che Wukong supera costantemente i modelli all'avanguardia in termini di qualità. Inoltre, abbiamo valutato la scalabilità di Wukong su un dataset interno su larga scala. I risultati mostrano che Wukong mantiene la sua superiorità in qualità rispetto ai modelli all'avanguardia, rispettando la legge di scala attraverso due ordini di grandezza nella complessità del modello, estendendosi oltre i 100 Gflop o equivalentemente fino alla scala di calcolo totale di addestramento di GPT-3/LLaMa-2, dove i precedenti approcci falliscono.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità notevoli nella risoluzione di problemi. Tuttavia, la loro competenza nel risolvere problemi matematici rimane insufficiente. Proponiamo MathScale, un metodo semplice e scalabile per creare dati di ragionamento matematico di alta qualità utilizzando LLM all'avanguardia (ad esempio, {\tt GPT-3.5}). Ispirato dal meccanismo cognitivo nell'apprendimento matematico umano, esso estrae prima argomenti e punti di conoscenza da domande matematiche di base e poi costruisce un grafo concettuale, che viene successivamente utilizzato per generare nuove domande matematiche. MathScale mostra un'efficace scalabilità lungo l'asse dimensionale del dataset matematico che generiamo. Di conseguenza, creiamo un dataset di ragionamento matematico (MathScaleQA) contenente due milioni di coppie domanda-risposta matematiche. Per valutare in modo completo le capacità di ragionamento matematico degli LLM, costruiamo {\sc MwpBench}, un benchmark di problemi matematici verbali, che è una raccolta di dieci dataset (inclusi GSM8K e MATH) che coprono problemi matematici di livello K-12, universitario e di competizione. Applichiamo MathScaleQA per ottimizzare LLM open-source (ad esempio, LLaMA-2 e Mistral), ottenendo un miglioramento significativo nelle capacità di ragionamento matematico. Valutato su {\sc MwpBench}, MathScale-7B raggiunge prestazioni all'avanguardia su tutti i dataset, superando i suoi migliori pari di dimensioni equivalenti del 42,9\% in accuratezza media micro e del 43,7\% in accuratezza media macro, rispettivamente.
Lo sviluppo di sistemi interattivi multimodali è ostacolato dalla mancanza di dati conversazionali ricchi e multimodali (testo, immagini), necessari in grandi quantità per i modelli linguistici di grandi dimensioni (LLM). Approcci precedenti integrano dialoghi testuali con immagini recuperate, introducendo vincoli legati alla privacy, alla diversità e alla qualità. In questo lavoro, presentiamo Multimodal Augmented Generative Images Dialogues (MAGID), un framework progettato per arricchire dialoghi esclusivamente testuali con immagini diversificate e di alta qualità. Successivamente, viene applicato un modello di diffusione per generare immagini corrispondenti, garantendo l'allineamento con il testo identificato. Infine, MAGID incorpora un innovativo ciclo di feedback tra un modulo di generazione di descrizioni di immagini (LLM testuale) e moduli di qualità delle immagini (che affrontano estetica, corrispondenza immagine-testo e sicurezza), che lavorano in tandem per produrre dialoghi multimodali di alta qualità. Confrontiamo MAGID con altri baseline all'avanguardia su tre dataset di dialoghi, utilizzando valutazioni automatiche e umane. I nostri risultati dimostrano che MAGID è comparabile o superiore ai baseline, con miglioramenti significativi nella valutazione umana, specialmente rispetto ai baseline di recupero in cui il database di immagini è limitato.
I grandi modelli linguistici (LLM) si sono dimostrati notevolmente superiori ai metodi convenzionali in vari compiti. Tuttavia, i loro costosi calcoli e gli elevati requisiti di memoria ne rendono difficile il dispiegamento. La quantizzazione del modello è un metodo efficace per ridurre questo sovraccarico. Il problema è che nella maggior parte dei lavori precedenti, il modello quantizzato è stato calibrato utilizzando pochi campioni dei dati di addestramento, il che potrebbe influenzare la generalizzazione degli LLM quantizzati a casi e compiti sconosciuti. Pertanto, in questo lavoro, esploriamo una domanda importante: possiamo progettare un metodo di quantizzazione indipendente dai dati per gli LLM che garantisca le loro prestazioni di generalizzazione? In questo lavoro, proponiamo EasyQuant, un algoritmo di quantizzazione solo dei pesi, senza addestramento e indipendente dai dati, per gli LLM. La nostra osservazione indica che due fattori: i valori anomali nei pesi e gli intervalli di quantizzazione, sono essenziali per ridurre l'errore di quantizzazione. Pertanto, in EasyQuant, lasciamo invariati i valori anomali (meno dell'1%) e ottimizziamo l'intervallo di quantizzazione per ridurre l'errore di ricostruzione. Con questi metodi, sorprendentemente scopriamo che EasyQuant raggiunge prestazioni comparabili al modello originale. Poiché EasyQuant non dipende da alcun dato di addestramento, le prestazioni di generalizzazione degli LLM quantizzati sono garantite in modo sicuro. Inoltre, EasyQuant può essere implementato in parallelo, in modo che il modello quantizzato possa essere ottenuto in pochi minuti anche per LLM con oltre 100 miliardi di parametri. Per quanto ne sappiamo, siamo i primi a ottenere prestazioni di quantizzazione quasi prive di perdite per gli LLM in un contesto indipendente dai dati, e il nostro algoritmo è oltre 10 volte più veloce rispetto ai metodi dipendenti dai dati.
Nonostante i notevoli progressi, gli attuali modelli linguistici multimodali di grandi dimensioni (MLLMs) sono ancora inferiori nel riconoscimento visivo granulare. Contrariamente ai lavori precedenti, studiamo questo problema dal punto di vista della risoluzione delle immagini e riveliamo che una combinazione di caratteristiche visive a bassa e alta risoluzione può mitigare efficacemente questa carenza. Sulla base di questa osservazione, proponiamo un metodo nuovo ed efficiente per gli MLLMs, denominato Mixture-of-Resolution Adaptation (MRA). In particolare, MRA adotta due percorsi visivi per immagini con diverse risoluzioni, dove le informazioni visive ad alta risoluzione sono incorporate nel percorso a bassa risoluzione tramite i nuovi adattatori a miscela di risoluzione (MR-Adapters). Questo design riduce notevolmente anche la lunghezza della sequenza di input degli MLLMs. Per validare MRA, lo applichiamo a un recente MLLM chiamato LLaVA, e denominiamo il nuovo modello LLaVA-HR. Condividiamo esperimenti estesi su 11 task di visione e linguaggio (VL), che dimostrano che LLaVA-HR supera gli MLLMs esistenti su 8 task VL, ad esempio, +9,4% su TextVQA. Ancora più importante, sia l'addestramento che l'inferenza di LLaVA-HR rimangono efficienti con MRA, ad esempio, 20 ore di addestramento e una velocità di inferenza 3 volte superiore rispetto a LLaVA-1.5. I codici sorgenti sono rilasciati su: https://github.com/luogen1996/LLaVA-HR.
Dalla moderazione dei contenuti alla conservazione della fauna selvatica, il numero di applicazioni che richiedono modelli in grado di riconoscere concetti visivi sfumati o soggettivi è in crescita. Tradizionalmente, lo sviluppo di classificatori per tali concetti richiede uno sforzo manuale sostanziale, misurato in ore, giorni o persino mesi, per identificare e annotare i dati necessari per l'addestramento. Anche con le tecniche di Agile Modeling proposte di recente, che consentono un rapido bootstrap dei classificatori di immagini, gli utenti devono comunque dedicare 30 minuti o più a un'etichettatura monotona e ripetitiva dei dati solo per addestrare un singolo classificatore. Basandoci sulla teoria del Cognitive Miser di Fiske, proponiamo un nuovo framework che allevia lo sforzo manuale sostituendo l'etichettatura umana con interazioni in linguaggio naturale, riducendo lo sforzo totale necessario per definire un concetto di un ordine di grandezza: dall'etichettatura di 2.000 immagini a sole 100 più alcune interazioni in linguaggio naturale. Il nostro framework sfrutta i recenti progressi nei modelli di base, sia i grandi modelli linguistici che i modelli visione-linguaggio, per delineare lo spazio dei concetti attraverso la conversazione e per etichettare automaticamente i punti di dati di addestramento. Soprattutto, il nostro framework elimina la necessità di annotazioni crowdsourced. Inoltre, il nostro framework produce alla fine modelli di classificazione leggeri che possono essere implementati in scenari sensibili ai costi. Su 15 concetti soggettivi e su 2 dataset pubblici di classificazione di immagini, i nostri modelli addestrati superano sia l'Agile Modeling tradizionale che i modelli di classificazione zero-shot all'avanguardia come ALIGN, CLIP, CuPL, e i grandi modelli di risposta alle domande visive come PaLI-X.
Il linguaggio naturale e le immagini sono comunemente utilizzati come rappresentazioni degli obiettivi nell'apprendimento per imitazione condizionato da obiettivi (IL). Tuttavia, il linguaggio naturale può essere ambiguo e le immagini possono essere eccessivamente specifiche. In questo lavoro, proponiamo gli schizzi disegnati a mano come modalità per la specificazione degli obiettivi nell'apprendimento per imitazione visiva. Gli schizzi sono facili da fornire da parte degli utenti in modo immediato, come il linguaggio, ma, similmente alle immagini, possono anche aiutare una politica a valle a essere spazialmente consapevole e persino andare oltre le immagini per distinguere gli oggetti rilevanti per il compito da quelli irrilevanti. Presentiamo RT-Sketch, una politica condizionata da obiettivi per la manipolazione che prende come input uno schizzo disegnato a mano della scena desiderata e restituisce azioni. Addestriamo RT-Sketch su un dataset di traiettorie accoppiate e corrispondenti schizzi di obiettivi generati sinteticamente. Valutiamo questo approccio su sei abilità di manipolazione che coinvolgono riarrangiamenti di oggetti su un piano di lavoro articolato. Sperimentalmente, troviamo che RT-Sketch è in grado di performare a un livello simile agli agenti condizionati da immagini o linguaggio in contesti semplici, mentre raggiunge una maggiore robustezza quando gli obiettivi linguistici sono ambigui o sono presenti distrattori visivi. Inoltre, dimostriamo che RT-Sketch ha la capacità di interpretare e agire su schizzi con vari livelli di specificità, che vanno da disegni a linee minimali a disegni dettagliati e colorati. Per materiale supplementare e video, si prega di consultare il nostro sito web: http://rt-sketch.github.io.
I recenti sviluppi nei campi neurali hanno portato capacità fenomenali al campo della generazione di forme, ma mancano di proprietà cruciali, come il controllo incrementale - un requisito fondamentale per il lavoro artistico. Le mesh triangolari, d'altra parte, sono la rappresentazione preferita per la maggior parte delle attività legate alla geometria, offrendo efficienza e controllo intuitivo, ma non si prestano all'ottimizzazione neurale. Per supportare compiti a valle, le precedenti soluzioni propongono tipicamente un approccio in due fasi, in cui prima viene generata una forma utilizzando campi neurali, e poi viene estratta una mesh per ulteriori elaborazioni. In questo articolo, invece, introduciamo un approccio ibrido che mantiene sia una mesh che una rappresentazione di campo di distanza con segno (SDF) in modo coerente. Utilizzando questa rappresentazione, introduciamo MagicClay - uno strumento amichevole per artisti per scolpire regioni di una mesh in base a prompt testuali, mantenendo inalterate altre regioni. Il nostro framework bilancia attentamente ed efficientemente la coerenza tra le rappresentazioni e le regolarizzazioni in ogni fase dell'ottimizzazione della forma; basandoci sulla rappresentazione della mesh, mostriamo come renderizzare l'SDF a risoluzioni più elevate e più velocemente. Inoltre, impieghiamo lavori recenti nella ricostruzione differenziabile di mesh per allocare in modo adattivo i triangoli nella mesh dove necessario, come indicato dall'SDF. Utilizzando un prototipo implementato, dimostriamo una geometria generata superiore rispetto allo stato dell'arte, e un controllo coerente e innovativo, consentendo per la prima volta modifiche sequenziali basate su prompt alla stessa mesh.