Articoli di ricerca IA selezionati quotidianamente con traduzioni
I fattori trainanti dietro lo sviluppo di modelli linguistici di grandi dimensioni (LLM) con capacità di apprendimento impressionanti sono le loro dimensioni colossali e i vasti dataset di addestramento. Parallelamente ai progressi nell'elaborazione del linguaggio naturale, gli LLM sono stati spesso resi accessibili al pubblico per favorire indagini più approfondite e applicazioni. Tuttavia, quando si tratta dei dataset di addestramento per questi LLM, in particolare per i modelli più recenti all'avanguardia, spesso non vengono completamente divulgati. La creazione di dati di addestramento per LLM ad alte prestazioni richiede un'ampia pulizia e deduplicazione per garantire il livello di qualità necessario. La mancanza di trasparenza sui dati di addestramento ha quindi ostacolato la ricerca sull'attribuzione e la risoluzione dei problemi di allucinazione e bias negli LLM, impedendo gli sforzi di replicazione e ulteriori progressi nella comunità. Queste sfide diventano ancora più pronunciate negli scenari di apprendimento multilingue, dove i dataset di testo multilingue disponibili sono spesso raccolti e puliti in modo inadeguato. Di conseguenza, manca un dataset open source e immediatamente utilizzabile per addestrare efficacemente gli LLM in più lingue. Per superare questo problema, presentiamo CulturaX, un sostanziale dataset multilingue con 6,3 trilioni di token in 167 lingue, progettato per lo sviluppo di LLM. Il nostro dataset subisce una meticolosa pulizia e deduplicazione attraverso una rigorosa pipeline a più stadi per raggiungere la migliore qualità per l'addestramento dei modelli, inclusa l'identificazione della lingua, il filtraggio basato su URL, la pulizia basata su metriche, il perfezionamento dei documenti e la deduplicazione dei dati. CulturaX è completamente rilasciato al pubblico su HuggingFace per facilitare la ricerca e i progressi negli LLM multilingue: https://huggingface.co/datasets/uonlp/CulturaX.
Esploriamo come il pre-addestramento continuo su corpora specifici di dominio influenzi i grandi modelli linguistici, rivelando che l'addestramento sui corpora grezzi conferisce al modello conoscenze di dominio, ma compromette drasticamente la sua capacità di rispondere a prompt per il question answering. Ispirandoci all'apprendimento umano tramite la comprensione della lettura—dove la pratica dopo la lettura migliora la capacità di rispondere a domande basate sulle conoscenze acquisite—proponiamo un metodo semplice per trasformare i corpora grezzi in testi di comprensione della lettura. Ogni testo grezzo viene arricchito con una serie di attività relative al suo contenuto. Il nostro metodo, altamente scalabile e applicabile a qualsiasi corpora di pre-addestramento, migliora costantemente le prestazioni in vari compiti in tre diversi domini: biomedicina, finanza e diritto. In particolare, il nostro modello linguistico da 7B raggiunge prestazioni competitive con modelli specifici di dominio di dimensioni molto maggiori, come BloombergGPT-50B. Inoltre, dimostriamo che i testi di comprensione della lettura specifici per un dominio possono migliorare le prestazioni del modello anche su benchmark generali, mostrando il potenziale per sviluppare un modello generale in ancora più domini. Il nostro modello, il codice e i dati saranno disponibili su https://github.com/microsoft/LMOps.
I Large Language Model (LLM) presentano problemi nel rispondere a domande su documenti (QA) in situazioni in cui il documento non può essere inserito nel breve contesto di un LLM. Per superare questo problema, la maggior parte dei lavori esistenti si concentra sul recupero del contesto rilevante dal documento, rappresentandolo come testo semplice. Tuttavia, documenti come PDF, pagine web e presentazioni sono naturalmente strutturati con diverse pagine, tabelle, sezioni e così via. Rappresentare tali documenti strutturati come testo semplice è incongruente con il modello mentale che l'utente ha di questi documenti, ricchi di struttura. Quando un sistema deve interrogare il documento per ottenere il contesto, questa incongruenza emerge in primo piano, e domande apparentemente banali possono mettere in difficoltà il sistema QA. Per colmare questa lacuna fondamentale nella gestione di documenti strutturati, proponiamo un approccio chiamato PDFTriage che consente ai modelli di recuperare il contesto in base alla struttura o al contenuto. I nostri esperimenti dimostrano l'efficacia dei modelli potenziati da PDFTriage su diverse classi di domande in cui i LLM esistenti arricchiti con tecniche di recupero falliscono. Per facilitare ulteriori ricerche su questo problema fondamentale, rilasciamo il nostro dataset di benchmark composto da oltre 900 domande generate da esseri umani su 80 documenti strutturati, con 10 diverse categorie di tipi di domande per il QA su documenti.
Questo articolo presenta una rassegna completa della tassonomia e dell'evoluzione dei modelli fondazionali multimodali che dimostrano capacità visive e di visione-linguaggio, concentrandosi sulla transizione da modelli specializzati ad assistenti generici. Il panorama della ricerca comprende cinque temi principali, suddivisi in due classi. (i) Iniziamo con una rassegna delle aree di ricerca consolidate: modelli fondazionali multimodali pre-addestrati per scopi specifici, includendo due temi -- metodi di apprendimento di backbone visivi per la comprensione visiva e la generazione di immagini da testo. (ii) Successivamente, presentiamo i recenti progressi nelle aree di ricerca esplorative e aperte: modelli fondazionali multimodali che mirano a svolgere il ruolo di assistenti generici, includendo tre temi -- modelli visivi unificati ispirati dai grandi modelli linguistici (LLM), addestramento end-to-end di LLM multimodali e concatenazione di strumenti multimodali con LLM. Il pubblico target dell'articolo è composto da ricercatori, studenti laureati e professionisti nelle comunità di visione artificiale e multimodali visione-linguaggio che desiderano apprendere le basi e i recenti progressi nei modelli fondazionali multimodali.
Dimostriamo che il Contrastive Decoding -- un metodo semplice, computazionalmente leggero e privo di addestramento per la generazione di testo proposto da Li et al. nel 2022 -- ottiene miglioramenti significativi "out-of-the-box" rispetto al greedy decoding su una varietà di task di ragionamento. Originariamente dimostrato per migliorare la qualità percepita della generazione di testo in forma estesa, il Contrastive Decoding cerca stringhe che massimizzano una differenza ponderata nella probabilità tra modelli forti e deboli. Mostriamo che il Contrastive Decoding consente a LLaMA-65B di superare LLaMA 2, GPT-3.5 e PaLM 2-L sul benchmark di ragionamento di senso comune HellaSwag, e di superare LLaMA 2, GPT-3.5 e PaLM-540B sul benchmark di ragionamento matematico GSM8K, oltre a ottenere miglioramenti su una raccolta di altri task. L'analisi suggerisce che il Contrastive Decoding migliora rispetto ai metodi esistenti prevenendo alcuni errori di ragionamento astratto, oltre a evitare modalità più semplici come la copia di sezioni dell'input durante il chain-of-thought. Nel complesso, il Contrastive Decoding supera il nucleus sampling per la generazione di testo in forma estesa e il greedy decoding per i task di ragionamento, rendendolo un potente metodo generico per la generazione di testo da modelli linguistici.
Il rapido progresso dei modelli linguistici di grandi dimensioni (LLM) ha rivoluzionato l'elaborazione del linguaggio naturale (NLP). Sebbene questi modelli eccellano nella comprensione e nella generazione di testo simile a quello umano, il loro ampio dispiegamento può risultare proibitivamente costoso. SortedNet è una recente tecnica di addestramento che abilita l'inferenza dinamica per le reti neurali profonde. Sfrutta la modularità della rete per creare sottomodelli con carichi computazionali variabili, ordinandoli in base alle caratteristiche di calcolo/accuratezza in modo annidato. Estendiamo SortedNet ai compiti generativi di NLP, rendendo i modelli linguistici di grandi dimensioni dinamici senza alcun preaddestramento e sostituendo semplicemente il Fine-Tuning Supervisionato standard (SFT) con il Sorted Fine-Tuning (SoFT) agli stessi costi. Il nostro approccio migliora l'efficienza del modello, eliminando la necessità di più modelli per vari scenari durante l'inferenza. Dimostriamo che, utilizzando questo approccio, siamo in grado di sbloccare il potenziale degli strati intermedi dei trasformatori nella generazione dell'output desiderato. I nostri sottomodelli rimangono componenti integrali del modello originale, minimizzando i requisiti di archiviazione e i costi di transizione tra diversi budget computazionali/latenza. Applicando questo approccio su LLaMa 2 13B per il tuning sul dataset Stanford Alpaca e confrontandolo con il tuning normale e l'uscita anticipata tramite il benchmark PandaLM, dimostriamo che il Sorted Fine-Tuning può fornire modelli due volte più veloci rispetto al modello originale, mantenendo o superando le prestazioni.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato prestazioni notevoli in una varietà di compiti di elaborazione del linguaggio naturale basandosi su pochi esempi di istruzioni in linguaggio naturale, riducendo così la necessità di un'ampia progettazione di caratteristiche. Tuttavia, la maggior parte dei LLM più potenti sono closed-source o limitati nelle loro capacità per lingue diverse dall'inglese. In questo rapporto tecnico, presentiamo Baichuan 2, una serie di modelli linguistici multilingue su larga scala contenenti 7 miliardi e 13 miliardi di parametri, addestrati da zero su 2,6 trilioni di token. Baichuan 2 eguaglia o supera altri modelli open-source di dimensioni simili su benchmark pubblici come MMLU, CMMLU, GSM8K e HumanEval. Inoltre, Baichuan 2 eccelle in domini verticali come medicina e diritto. Rilasceremo tutti i checkpoint dei modelli pre-addestrati per favorire la comunità di ricerca nel comprendere meglio le dinamiche di addestramento di Baichuan 2.
Il tuning delle istruzioni visive ha recentemente mostrato progressi incoraggianti con modelli multimodali di grandi dimensioni (LMM) open-source come LLaVA e MiniGPT-4. Tuttavia, la maggior parte degli studi esistenti sui LMM open-source viene condotta utilizzando modelli con 13 miliardi di parametri o meno. In questo articolo presentiamo uno studio empirico sul ridimensionamento di LLaVA fino a 33 miliardi e 65/70 miliardi di parametri, e condividiamo le nostre scoperte derivanti dalle esplorazioni sulla risoluzione delle immagini, il mix di dati e i metodi di addestramento efficiente in termini di parametri come LoRA/QLoRA. Questi vengono valutati in base al loro impatto sulle capacità multimodali e linguistiche durante il completamento di compiti reali in contesti non controllati. Abbiamo riscontrato che il ridimensionamento dei LMM migliora costantemente le prestazioni del modello e potenzia le capacità linguistiche, e che le prestazioni del tuning LoRA/QLoRA dei LMM sono comparabili a quelle del fine-tuning completo del modello. Inoltre, lo studio evidenzia l'importanza di risoluzioni delle immagini più elevate e del mix di dati multimodali-linguistici per migliorare le prestazioni dei LMM, e che il tuning delle istruzioni visive può talvolta migliorare la pura capacità linguistica dei LMM. Speriamo che questo studio renda la ricerca all'avanguardia sui LMM su scala più ampia più accessibile, contribuendo così a stabilire baseline più solide per le ricerche future. Codice e checkpoint saranno resi pubblici.
La generazione di layout grafici, un campo di ricerca in crescita, svolge un ruolo significativo nell'engagement degli utenti e nella percezione delle informazioni. I metodi esistenti trattano principalmente la generazione di layout come un'ottimizzazione numerica, concentrandosi sugli aspetti quantitativi mentre trascurano le informazioni semantiche del layout, come la relazione tra ciascun elemento del layout. In questo articolo, proponiamo LayoutNUWA, il primo modello che tratta la generazione di layout come un'attività di generazione di codice per migliorare le informazioni semantiche e sfruttare l'esperienza nascosta nei modelli linguistici di grandi dimensioni (LLM). Più concretamente, sviluppiamo un approccio di Code Instruct Tuning (CIT) composto da tre moduli interconnessi: 1) il modulo di Code Initialization (CI) quantifica le condizioni numeriche e le inizializza come codice HTML con maschere posizionate strategicamente; 2) il modulo di Code Completion (CC) utilizza la conoscenza della formattazione degli LLM per riempire le porzioni mascherate all'interno del codice HTML; 3) il modulo di Code Rendering (CR) trasforma il codice completato nell'output finale del layout, garantendo una procedura di generazione del layout altamente interpretabile e trasparente che mappa direttamente il codice a un layout visualizzato. Raggiungiamo prestazioni significative all'avanguardia (con miglioramenti anche superiori al 50%) su più dataset, dimostrando le forti capacità di LayoutNUWA. Il nostro codice è disponibile all'indirizzo https://github.com/ProjectNUWA/LayoutNUWA.
Con il rapido progresso delle applicazioni pratiche basate su modelli linguistici di grandi dimensioni (Large Language Models), l'importanza dell'estrapolazione delle prestazioni è cresciuta in modo esponenziale nel campo della ricerca. Nel nostro studio, abbiamo identificato un comportamento anomalo nei modelli Transformer che era stato precedentemente trascurato, portando a un caos intorno ai token più vicini che contenevano le informazioni più importanti. Abbiamo definito questa scoperta il "mal di testa dei Transformer". Per affrontare questo problema alla radice, abbiamo introdotto una nuova struttura di self-attention denominata Collinear Constrained Attention (CoCA). Questa struttura può essere integrata senza problemi con i metodi di estrapolazione e interpolazione esistenti, nonché con altre strategie di ottimizzazione progettate per i tradizionali modelli Transformer. Abbiamo ottenuto eccellenti prestazioni di estrapolazione anche per lunghezze di sequenza da 16 a 24 volte superiori durante l'inferenza, senza alcuna messa a punto del nostro modello. Abbiamo inoltre migliorato l'efficienza computazionale e spaziale di CoCA per garantirne la praticità. Prevediamo di rendere open-source CoCA a breve. Nel frattempo, abbiamo reso disponibile il nostro codice nell'appendice per la riproduzione degli esperimenti.
I Large Language Model (LLM) hanno la capacità di eseguire pianificazioni complesse in un sistema multi-agente e possono coordinare questi agenti per completare compiti sofisticati che richiedono un'ampia collaborazione. Tuttavia, nonostante l'introduzione di numerosi framework di gioco, la comunità manca di benchmark sufficienti per costruire un'infrastruttura generale di collaborazione multi-agente che includa sia la collaborazione tra LLM che quella tra umani e NPC. In questo lavoro, proponiamo una nuova infrastruttura - MindAgent - per valutare le capacità emergenti di pianificazione e coordinamento nell'interazione di gioco. In particolare, la nostra infrastruttura sfrutta framework di gioco esistenti per: i) richiedere la comprensione del coordinatore in un sistema multi-agente, ii) collaborare con giocatori umani tramite istruzioni appropriate non ottimizzate, e iii) stabilire un apprendimento in-context su prompt few-shot con feedback. Inoltre, introduciamo CUISINEWORLD, un nuovo scenario di gioco e relativo benchmark che valuta l'efficienza della collaborazione multi-agente e supervisiona più agenti che giocano simultaneamente. Eseguiamo valutazioni complete con una nuova metrica automatica, CoS, per calcolare l'efficienza della collaborazione. Infine, la nostra infrastruttura può essere implementata in scenari di gioco reali in una versione personalizzata in VR di CUISINEWORLD e adattata al più ampio dominio di gioco di Minecraft. Speriamo che i nostri risultati sugli LLM e la nuova infrastruttura per la pianificazione e il coordinamento di scopi generali possano contribuire a chiarire come tali competenze possano essere acquisite attraverso l'apprendimento da grandi corpora linguistici.
I Large Language Model (LLM) hanno rivoluzionato l'elaborazione del linguaggio naturale, ma allineare questi modelli ai valori e alle preferenze umane utilizzando il Reinforcement Learning from Human Feedback (RLHF) rimane una sfida significativa. Questa sfida è caratterizzata da varie instabilità, come il reward hacking e la dimenticanza catastrofica. In questo rapporto tecnico, proponiamo due innovazioni per stabilizzare l'addestramento RLHF: 1) l'Advantage Model, che modella direttamente il punteggio di vantaggio, ovvero la ricompensa aggiuntiva rispetto alle ricompense attese, e regola le distribuzioni dei punteggi tra i compiti per prevenire il reward hacking; 2) il Selective Rehearsal, che mitiga la dimenticanza catastrofica selezionando strategicamente i dati per l'addestramento PPO e il ripasso delle conoscenze. La nostra analisi sperimentale su dataset pubblici e proprietari rivela che i metodi proposti non solo aumentano la stabilità nell'addestramento RLHF, ma raggiungono anche punteggi di ricompensa e tassi di vittoria più elevati.
Nonostante la potenza dei Large Language Models (LLM) come GPT-4, questi continuano a incontrare difficoltà nei compiti che richiedono la generazione di output complessi e strutturati. In questo studio, valutiamo la capacità degli attuali LLM di generare dati strutturati complessi e proponiamo un approccio di fine-tuning consapevole della struttura come soluzione per migliorare questa abilità. Per eseguire una valutazione completa, proponiamo Struc-Bench, includendo cinque LLM rappresentativi (ovvero GPT-NeoX 20B, GPT-3.5, GPT-4 e Vicuna) e li valutiamo sui nostri dataset accuratamente costruiti, che spaziano da testo grezzo a tabelle HTML e LaTeX. Sulla base della nostra analisi delle prestazioni attuali dei modelli, identifichiamo errori di formattazione comuni e specifiche aree di potenziale miglioramento. Per affrontare i requisiti di formattazione complessi, utilizziamo FormatCoT (Chain-of-Thought) per generare istruzioni di formattazione a partire dagli output target. I nostri esperimenti dimostrano che il nostro metodo di fine-tuning consapevole della struttura, applicato a LLaMA-7B, migliora significativamente l'aderenza ai vincoli del linguaggio naturale, superando gli altri LLM valutati. Sulla base di questi risultati, presentiamo una mappa delle capacità dei modelli da sei dimensioni (ovvero copertura, formattazione, ragionamento, comprensione, pragmatica e allucinazione). Questa mappa evidenzia le debolezze degli LLM nella gestione di output strutturati complessi e suggerisce direzioni promettenti per futuri lavori. Il nostro codice e i nostri modelli sono disponibili all'indirizzo https://github.com/gersteinlab/Struc-Bench.
I grandi modelli linguistici con capacità di seguire istruzioni hanno rivoluzionato il campo dell'intelligenza artificiale. Questi modelli dimostrano un'eccezionale generalizzabilità nell'affrontare vari compiti del mondo reale attraverso le loro interfacce in linguaggio naturale. Tuttavia, le loro prestazioni dipendono fortemente da dati esemplari di alta qualità, che sono spesso difficili da ottenere. Questa sfida è ulteriormente esacerbata quando si tratta di seguire istruzioni multimodali. Introduciamo TextBind, un framework quasi privo di annotazioni per potenziare i grandi modelli linguistici con capacità di seguire istruzioni multimodali intercalate in più turni. Il nostro approccio richiede solo coppie immagine-didascalia e genera conversazioni multimodali istruzione-risposta in più turni da un modello linguistico. Rilasciamo il nostro dataset, modello e demo per favorire future ricerche nel campo del seguire istruzioni multimodali.
Shampoo è un algoritmo di ottimizzazione online e stocastico appartenente alla famiglia di metodi AdaGrad per l'addestramento di reti neurali. Costruisce un precondizionatore a blocchi diagonali in cui ogni blocco consiste in un'approssimazione grossolana del prodotto di Kronecker rispetto alla versione a matrice completa di AdaGrad per ciascun parametro della rete neurale. In questo lavoro, forniamo una descrizione completa dell'algoritmo, nonché delle ottimizzazioni delle prestazioni che la nostra implementazione sfrutta per addestrare reti profonde su larga scala in PyTorch. La nostra implementazione consente un addestramento distribuito dati-parallelo veloce su più GPU, distribuendo la memoria e il calcolo associati ai blocchi di ciascun parametro tramite la struttura dati DTensor di PyTorch e eseguendo una primitiva AllGather sulle direzioni di ricerca calcolate a ogni iterazione. Questo significativo miglioramento delle prestazioni ci permette di ottenere al massimo una riduzione del 10% nel tempo di esecuzione per passo rispetto ai metodi adattivi basati su scalatura diagonale standard. Validiamo la nostra implementazione eseguendo uno studio di ablazione sull'addestramento di ResNet50 su ImageNet, dimostrando la superiorità di Shampoo rispetto alle ricette di addestramento standard con una minima regolazione degli iperparametri.
Nella generazione musicale basata su modelli linguistici, una forma d'onda generata è rappresentata da una sequenza di stack gerarchici di token che possono essere decodificati in modo auto-regressivo o parallelo, a seconda dei pattern dei codebook. In particolare, l'appiattimento dei codebook rappresenta la strategia di decodifica di qualità più elevata, sebbene sia notoriamente lenta. A tal fine, proponiamo una nuova strategia di decodifica di tipo "stack-and-delay" per migliorare la decodifica con pattern piatto, dove la velocità di generazione è quattro volte più veloce rispetto alla decodifica piatta tradizionale. Ciò avvicina il tempo di inferenza a quello della strategia di decodifica con ritardo e consente un'inferenza più rapida su GPU per dimensioni di batch ridotte. Con lo stesso budget di efficienza di inferenza del pattern con ritardo, dimostriamo che l'approccio proposto ottiene risultati migliori nelle valutazioni oggettive, quasi colmando il divario con il pattern piatto in termini di qualità. I risultati sono confermati da valutazioni soggettive che mostrano come i campioni generati dal nuovo modello siano leggermente più spesso preferiti rispetto a quelli generati dal modello concorrente, dati gli stessi prompt testuali.
Il tradizionale problema del Dialogue State Tracking (DST) mira a tracciare le preferenze e le intenzioni dell'utente nelle conversazioni tra utente e agente. Sebbene sufficiente per i sistemi di dialogo orientati al compito che supportano applicazioni in domini ristretti, l'avvento dei sistemi di chat basati su Large Language Model (LLM) ha introdotto molte complessità del mondo reale nei dialoghi a dominio aperto. Queste complessità si manifestano sotto forma di una maggiore complessità nelle interazioni contestuali, sessioni di dialogo prolungate che abbracciano una vasta gamma di argomenti e cambiamenti contestuali più frequenti. Per gestire queste complessità derivanti dall'evoluzione dei sistemi di chat basati su LLM, proponiamo un approccio congiunto di segmentazione del dialogo e tracciamento dello stato per segmento nei sistemi di dialogo a dominio aperto. Assumendo un'impostazione zero-shot appropriata per un vero sistema di dialogo a dominio aperto, proponiamo S3-DST, una tecnica di prompting strutturato che sfrutta il Pre-Analytical Recollection, un nuovo meccanismo di grounding che abbiamo progettato per migliorare il tracciamento del contesto lungo. Per dimostrare l'efficacia del nostro approccio proposto nella segmentazione congiunta e nel tracciamento dello stato, valutiamo S3-DST su un dataset proprietario anonimizzato di dialoghi a dominio aperto, nonché su dataset pubblicamente disponibili per DST e segmentazione. In tutti i dataset e le impostazioni, S3-DST supera costantemente lo stato dell'arte, dimostrando la sua potenza e robustezza per la prossima generazione di sistemi di chat basati su LLM.
L'adattamento del modello è cruciale per gestire la discrepanza tra i dati di addestramento proxy e i dati effettivi degli utenti ricevuti. Per eseguire efficacemente l'adattamento, i dati testuali degli utenti vengono tipicamente memorizzati sui server o sui loro dispositivi locali, dove i modelli di elaborazione del linguaggio naturale (NLP) downstream possono essere addestrati direttamente utilizzando tali dati in dominio. Tuttavia, ciò potrebbe sollevare preoccupazioni relative alla privacy e alla sicurezza a causa dei rischi aggiuntivi di esposizione delle informazioni degli utenti a potenziali avversari. La sostituzione delle informazioni identificative nei dati testuali con un marcatore generico è stata recentemente esplorata. In questo lavoro, sfruttiamo i grandi modelli linguistici (LLM) per suggerire sostituti dei token mascherati e valutiamo la loro efficacia su compiti di modellazione del linguaggio downstream. Nello specifico, proponiamo approcci multipli basati su LLM pre-addestrati e fine-tuned e conduciamo studi empirici su vari dataset per il confronto di questi metodi. I risultati sperimentali mostrano che i modelli addestrati sui corpora offuscati sono in grado di ottenere prestazioni comparabili con quelli addestrati sui dati originali senza l'uso di mascheramento dei token per la preservazione della privacy.
Questo articolo presenta un approccio innovativo per migliorare il controllo sulla generazione audio, enfatizzando l'allineamento tra le rappresentazioni audio e testuali durante l'addestramento del modello. Nel contesto della generazione audio basata su modelli linguistici, il modello sfrutta input provenienti sia da rappresentazioni testuali che da token audio per prevedere i token audio successivi. Tuttavia, la configurazione attuale manca di una regolarizzazione esplicita per garantire l'allineamento tra la rappresentazione testuale scelta e le previsioni del modello linguistico. La nostra proposta prevede l'incorporazione di una regolarizzazione delle rappresentazioni audio e testuali, in particolare durante la fase di guida senza classificatore (CFG), in cui la condizione testuale viene esclusa dall'attenzione incrociata durante l'addestramento del modello linguistico. L'obiettivo di questa regolarizzazione delle rappresentazioni è minimizzare le discrepanze nella similarità audio e testuale rispetto ad altri campioni all'interno dello stesso batch di addestramento. I risultati sperimentali su compiti di generazione musicale e audio dimostrano che i nostri metodi proposti portano a miglioramenti nelle metriche oggettive per entrambi i tipi di generazione, nonché a un miglioramento nella percezione umana per la generazione audio.
Il parsing semantico parlato (SSP) consiste nel generare parse comprensibili dalle macchine a partire da input vocali. Per addestrare modelli robusti per i domini applicativi esistenti rappresentati nei dati di training o per estendersi a nuovi domini, sono necessarie corrispondenti triplette di dati voce-trascrizione-parse semantica, che sono costose da ottenere. In questo articolo, affrontiamo questa sfida esaminando metodi che possono utilizzare dati trascrizione-parse semantica (testo non accoppiato) senza la corrispondente traccia vocale. In primo luogo, quando il testo non accoppiato è estratto da corpora testuali esistenti, Joint Audio Text (JAT) e Text-to-Speech (TTS) vengono confrontati come metodi per generare rappresentazioni vocali per il testo non accoppiato. Esperimenti sul dataset STOP mostrano che il testo non accoppiato proveniente da domini esistenti e nuovi migliora le prestazioni rispettivamente del 2% e del 30% in termini di Exact Match (EM) assoluto. In secondo luogo, consideriamo lo scenario in cui il testo non accoppiato non è disponibile nei corpora testuali esistenti. Proponiamo di utilizzare prompt con Large Language Models (LLMs) per generare testo non accoppiato per domini esistenti e nuovi. Gli esperimenti dimostrano che esempi e parole che co-occorrono con le intenzioni possono essere utilizzati per generare testo non accoppiato con Llama 2.0. L'uso del testo generato con JAT e TTS per il parsing semantico parlato migliora l'EM su STOP rispettivamente dell'1,4% e del 2,6% in termini assoluti per domini esistenti e nuovi.