Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli linguistici (LM) sono strumenti potenti per l'elaborazione del linguaggio naturale, ma spesso faticano a produrre testi coerenti e fluenti quando sono di piccole dimensioni. Modelli con circa 125 milioni di parametri, come GPT-Neo (piccolo) o GPT-2 (piccolo), raramente riescono a generare testi in inglese coerenti e consistenti oltre poche parole, anche dopo un addestramento estensivo. Ciò solleva la questione se l'emergere della capacità di produrre testi in inglese coerenti avvenga solo a scale più grandi (con centinaia di milioni di parametri o più) e con architetture complesse (con molti livelli di attenzione globale). In questo lavoro, introduciamo TinyStories, un dataset sintetico di brevi storie che contengono solo parole tipicamente comprese da bambini di 3-4 anni, generate da GPT-3.5 e GPT-4. Mostriamo che TinyStories può essere utilizzato per addestrare e valutare LM molto più piccoli rispetto ai modelli all'avanguardia (con meno di 10 milioni di parametri totali) o con architetture molto più semplici (con un solo blocco trasformatore), che tuttavia producono storie fluenti e consistenti di diversi paragrafi, diversificate e con una grammatica quasi perfetta, dimostrando anche capacità di ragionamento. Introduciamo inoltre un nuovo paradigma per la valutazione dei modelli linguistici: proponiamo un framework che utilizza GPT-4 per valutare il contenuto generato da questi modelli come se fossero storie scritte da studenti e valutate da un insegnante (umano). Questo nuovo paradigma supera i limiti dei benchmark standard, che spesso richiedono un output molto strutturato, e fornisce un punteggio multidimensionale per il modello, assegnando voti per diverse capacità come grammatica, creatività e coerenza. Speriamo che TinyStories possa facilitare lo sviluppo, l'analisi e la ricerca sui LM, specialmente per domini a basso contenuto di risorse o specializzati, e getti luce sull'emergere delle capacità linguistiche nei LM.
Presentiamo SoundStorm, un modello per la generazione efficiente e non autoregressiva di audio. SoundStorm riceve in input i token semantici di AudioLM e si basa su attenzione bidirezionale e decodifica parallela basata sulla confidenza per generare i token di un codec audio neurale. Rispetto all'approccio di generazione autoregressiva di AudioLM, il nostro modello produce audio della stessa qualità e con una maggiore coerenza nella voce e nelle condizioni acustiche, essendo due ordini di grandezza più veloce. SoundStorm genera 30 secondi di audio in 0,5 secondi su un TPU-v4. Dimostriamo la capacità del nostro modello di scalare la generazione audio a sequenze più lunghe sintetizzando segmenti di dialogo di alta qualità e naturali, dato un trascritto annotato con i turni di parola e un breve prompt con le voci dei parlanti.
Recenti ricerche hanno suggerito che esistono chiare differenze nel linguaggio utilizzato nel Dark Web rispetto a quello del Surface Web. Poiché gli studi sul Dark Web richiedono comunemente un'analisi testuale del dominio, modelli linguistici specifici per il Dark Web potrebbero fornire preziose informazioni ai ricercatori. In questo lavoro, presentiamo DarkBERT, un modello linguistico preaddestrato su dati del Dark Web. Descriviamo i passaggi intrapresi per filtrare e compilare i dati testuali utilizzati per addestrare DarkBERT, al fine di contrastare l'estrema diversità lessicale e strutturale del Dark Web che potrebbe essere dannosa per costruire una rappresentazione adeguata del dominio. Valutiamo DarkBERT e la sua controparte standard insieme ad altri modelli linguistici ampiamente utilizzati, per validare i vantaggi che un modello specifico per il dominio del Dark Web offre in vari casi d'uso. Le nostre valutazioni dimostrano che DarkBERT supera gli attuali modelli linguistici e potrebbe rappresentare una risorsa preziosa per future ricerche sul Dark Web.
I recenti sistemi di intelligenza artificiale (IA) hanno raggiunto traguardi significativi in "grandi sfide" che vanno dal Go al ripiegamento delle proteine. La capacità di recuperare conoscenze mediche, ragionarvi sopra e rispondere a domande mediche in modo paragonabile ai medici è stata a lungo considerata una di queste grandi sfide. I grandi modelli linguistici (LLM) hanno catalizzato progressi significativi nel rispondere a domande mediche; Med-PaLM è stato il primo modello a superare un punteggio di "sufficienza" in domande in stile US Medical Licensing Examination (USMLE), ottenendo un punteggio del 67,2% sul dataset MedQA. Tuttavia, questo e altri lavori precedenti hanno suggerito un ampio margine di miglioramento, specialmente quando le risposte dei modelli venivano confrontate con quelle dei clinici. Qui presentiamo Med-PaLM 2, che colma queste lacune sfruttando una combinazione di miglioramenti del modello LLM di base (PaLM 2), affinamento nel dominio medico e strategie di prompt, tra cui un nuovo approccio di raffinamento ensemble. Med-PaLM 2 ha ottenuto fino all'86,5% sul dataset MedQA, migliorando Med-PaLM di oltre il 19% e stabilendo un nuovo stato dell'arte. Abbiamo anche osservato prestazioni che si avvicinano o superano lo stato dell'arte su dataset come MedMCQA, PubMedQA e MMLU su argomenti clinici. Abbiamo condotto valutazioni umane dettagliate su domande a risposta lunga lungo più assi rilevanti per le applicazioni cliniche. In un confronto a coppie di 1066 domande mediche di consumatori, i medici hanno preferito le risposte di Med-PaLM 2 rispetto a quelle prodotte dai medici stessi su otto dei nove assi relativi all'utilità clinica (p < 0,001). Abbiamo anche osservato miglioramenti significativi rispetto a Med-PaLM su ogni asse di valutazione (p < 0,001) su nuovi dataset introdotti di 240 domande lunghe "avversariali" per esplorare i limiti degli LLM. Sebbene siano necessari ulteriori studi per validare l'efficacia di questi modelli in contesti reali, questi risultati evidenziano un rapido progresso verso prestazioni di livello medico nel rispondere a domande mediche.
I grandi modelli linguistici (LLM) pre-addestrati su vasti corpus di codice sorgente hanno ottenuto progressi significativi nell'intelligenza del codice. Tuttavia, gli attuali LLM per il codice presentano due principali limitazioni in termini di architettura e compiti di pre-addestramento. In primo luogo, spesso adottano un'architettura specifica (solo encoder o solo decoder) o si affidano a una rete unificata encoder-decoder per diversi compiti downstream. Il primo paradigma è limitato da una scarsa flessibilità nelle applicazioni, mentre nel secondo il modello è trattato come un sistema unico per tutti i compiti, portando a prestazioni subottimali su un sottoinsieme di task. In secondo luogo, spesso impiegano un insieme limitato di obiettivi di pre-addestramento che potrebbero non essere rilevanti per alcuni compiti downstream, risultando in un significativo degrado delle prestazioni. Per affrontare queste limitazioni, proponiamo ``CodeT5+'', una famiglia di LLM encoder-decoder per il codice in cui i moduli componenti possono essere combinati in modo flessibile per adattarsi a un'ampia gamma di task downstream relativi al codice. Tale flessibilità è resa possibile dalla nostra proposta di una miscela di obiettivi di pre-addestramento per mitigare la discrepanza tra pre-addestramento e fine-tuning. Questi obiettivi coprono compiti di denoising di span, apprendimento contrastivo, matching testo-codice e pre-addestramento LM causale, su corpora di codice multilingue sia unimodali che bimodali. Inoltre, proponiamo di inizializzare CodeT5+ con LLM pre-esistenti congelati senza addestramento da zero per scalare in modo efficiente i nostri modelli, e esploriamo l'instruction-tuning per allinearsi alle istruzioni in linguaggio naturale. Valutiamo estensivamente CodeT5+ su oltre 20 benchmark relativi al codice in diverse configurazioni, tra cui zero-shot, fine-tuning e instruction-tuning. Osserviamo prestazioni all'avanguardia (SoTA) su vari task relativi al codice, come generazione e completamento del codice, programmazione matematica e task di recupero testo-codice. In particolare, il nostro CodeT5+ 16B con instruction-tuning raggiunge nuovi risultati SoTA sul task di generazione di codice HumanEval rispetto ad altri LLM per il codice open.
I grandi modelli linguistici (LLM) come GPT-3 e GPT-4 sono potenti, ma i loro pesi sono spesso non disponibili pubblicamente e le loro dimensioni immense rendono difficile l'ottimizzazione di questi modelli con hardware comune. Di conseguenza, ottimizzare efficacemente questi modelli con dati supervisionati su larga scala può essere impegnativo. Come alternativa, l'apprendimento in contesto (In-Context Learning, ICL) può utilizzare solo un numero limitato di esempi supervisionati a causa dei limiti di lunghezza del contesto. In questo articolo, proponiamo il Super In-Context Learning (SuperICL), che consente ai LLM black-box di lavorare con modelli più piccoli ottimizzati localmente, ottenendo prestazioni superiori nei compiti supervisionati. I nostri esperimenti dimostrano che SuperICL può migliorare le prestazioni oltre i modelli ottimizzati all'avanguardia, affrontando contemporaneamente il problema dell'instabilità dell'apprendimento in contesto. Inoltre, SuperICL può potenziare le capacità dei modelli più piccoli, come la multilinguità e l'interpretabilità.
Un Sistema di Raccomandazione Conversazionale (CRS) offre una maggiore trasparenza e controllo agli utenti, consentendo loro di interagire con il sistema attraverso un dialogo in tempo reale a più turni. Recentemente, i Modelli Linguistici di Grande Dimensione (LLM) hanno dimostrato una capacità senza precedenti di conversare in modo naturale e di incorporare conoscenze del mondo e ragionamenti di buon senso nella comprensione del linguaggio, sbloccando il potenziale di questo paradigma. Tuttavia, sfruttare efficacemente gli LLM all'interno di un CRS introduce nuove sfide tecniche, tra cui comprendere e controllare correttamente una conversazione complessa e recuperare informazioni da fonti esterne. Questi problemi sono esacerbati da un corpus di elementi ampio e in evoluzione e dalla mancanza di dati conversazionali per l'addestramento. In questo articolo, forniamo una roadmap per la costruzione di un CRS su larga scala end-to-end utilizzando gli LLM. In particolare, proponiamo nuove implementazioni per la comprensione delle preferenze dell'utente, la gestione flessibile del dialogo e le raccomandazioni spiegabili come parte di un'architettura integrata alimentata da LLM. Per una migliore personalizzazione, descriviamo come un LLM possa consumare profili utente interpretabili in linguaggio naturale e utilizzarli per modulare il contesto a livello di sessione. Per superare le limitazioni dei dati conversazionali in assenza di un CRS di produzione esistente, proponiamo tecniche per costruire un simulatore utente basato su LLM controllabile per generare conversazioni sintetiche. Come prova di concetto, introduciamo RecLLM, un CRS su larga scala per i video di YouTube basato su LaMDA, e ne dimostriamo la fluidità e la funzionalità diversificata attraverso alcune conversazioni illustrative.
I modelli di diffusione hanno attirato una significativa attenzione nel campo della generazione di immagini grazie alle loro prestazioni eccezionali. Il loro successo è stato recentemente esteso alla generazione di testo attraverso la produzione simultanea di tutti i token all'interno di una sequenza. Tuttavia, il linguaggio naturale presenta una dipendenza sequenziale molto più marcata rispetto alle immagini, e la maggior parte dei modelli linguistici esistenti viene addestrata utilizzando un approccio auto-regressivo da sinistra a destra. Per tenere conto della caratteristica sequenziale intrinseca del linguaggio naturale, introduciamo la Diffusione Auto-Regressiva (AR-Diffusion). AR-Diffusion garantisce che la generazione dei token a destra dipenda da quelli generati a sinistra, un meccanismo ottenuto impiegando un numero dinamico di passaggi di denoising che variano in base alla posizione del token. Ciò comporta che i token a sinistra subiscano meno passaggi di denoising rispetto a quelli a destra, permettendo loro di generarsi prima e di influenzare successivamente la generazione dei token a destra. In una serie di esperimenti su vari compiti di generazione di testo, tra cui riassunto, traduzione automatica e generazione di senso comune, AR-Diffusion ha chiaramente dimostrato la sua superiorità rispetto ai modelli linguistici di diffusione esistenti e può essere da 100 a 600 volte più veloce nel raggiungere risultati comparabili. Il nostro codice sarà reso pubblico.
Presentiamo il symbol tuning - un approccio di fine-tuning per modelli linguistici basato su coppie input-label in contesto, in cui le etichette in linguaggio naturale (ad esempio, "sentimento positivo/negativo") vengono sostituite con simboli arbitrari (ad esempio, "foo/bar"). Il symbol tuning sfrutta l'intuizione che, quando un modello non può utilizzare istruzioni o etichette in linguaggio naturale per comprendere un compito, deve invece imparare a farlo apprendendo le mappature tra input e label. Abbiamo sperimentato il symbol tuning su modelli Flan-PaLM fino a 540 miliardi di parametri e osservato benefici in vari contesti. In primo luogo, il symbol tuning migliora le prestazioni su task di apprendimento in contesto non visti in precedenza e risulta molto più robusto rispetto a prompt non specificati, come quelli privi di istruzioni o di etichette in linguaggio naturale. In secondo luogo, i modelli sottoposti a symbol tuning dimostrano una capacità notevolmente superiore nei task di ragionamento algoritmico, con un miglioramento fino al 18,2% nel benchmark List Functions e fino al 15,3% nel benchmark Simple Turing Concepts. Infine, i modelli symbol-tuned mostrano significativi miglioramenti nel seguire etichette invertite presentate in contesto, il che significa che sono più capaci di utilizzare le informazioni contestuali per sovrascrivere le conoscenze semantiche pregresse.
La generazione di movimenti umani guidata da testo ha attirato un notevole interesse grazie alle sue applicazioni di impatto che spaziano dall'animazione alla robotica. Recentemente, l'applicazione di modelli di diffusione per la generazione di movimenti ha permesso di migliorare la qualità dei movimenti generati. Tuttavia, gli approcci esistenti sono limitati dalla loro dipendenza da dati di motion capture relativamente su piccola scala, portando a scarse prestazioni su prompt più diversificati e in contesti reali. In questo articolo, introduciamo Make-An-Animation, un modello di generazione di movimenti umani condizionato da testo che apprende pose e prompt più diversificati da dataset su larga scala di immagini e testo, consentendo un significativo miglioramento delle prestazioni rispetto ai lavori precedenti. Make-An-Animation viene addestrato in due fasi. In primo luogo, ci addestriamo su un dataset su larga scala curato di coppie (testo, pseudo-posa statica) estratte da dataset di immagini e testo. In secondo luogo, effettuiamo un fine-tuning su dati di motion capture, aggiungendo ulteriori strati per modellare la dimensione temporale. A differenza dei precedenti modelli di diffusione per la generazione di movimenti, Make-An-Animation utilizza un'architettura U-Net simile ai recenti modelli di generazione di video da testo. La valutazione umana del realismo dei movimenti e dell'allineamento con il testo di input mostra che il nostro modello raggiunge prestazioni all'avanguardia nella generazione di movimenti da testo.
L'apprendimento in contesto (in-context learning), in cui i modelli linguistici pre-addestrati imparano a eseguire compiti a partire da esempi di attività e istruzioni presenti nei loro contesti, ha attirato molta attenzione nella comunità NLP. Tuttavia, la capacità di apprendimento in contesto non è pienamente sfruttata poiché i modelli linguistici non sono esplicitamente addestrati per apprendere in contesto. A tal fine, proponiamo PICL (Pre-training for In-Context Learning), un framework per migliorare la capacità di apprendimento in contesto dei modelli linguistici pre-addestrandoli su un'ampia raccolta di "compiti intrinseci" presenti in un corpus di testo generico utilizzando l'obiettivo semplice del language modeling. PICL incoraggia il modello a dedurre ed eseguire compiti condizionandosi sui contesti, mantenendo al contempo la generalizzazione dei compiti dei modelli pre-addestrati. Valutiamo le prestazioni di apprendimento in contesto del modello addestrato con PICL su sette dataset ampiamente utilizzati per la classificazione del testo e sul benchmark Super-NaturalInstructions, che contiene oltre 100 compiti NLP formulati come generazione di testo. I nostri esperimenti dimostrano che PICL è più efficace e generalizzabile rispetto a una gamma di baseline, superando modelli linguistici più grandi con quasi 4 volte i parametri. Il codice è disponibile pubblicamente all'indirizzo https://github.com/thu-coai/PICL.
I modelli linguistici di grandi dimensioni (LLM) hanno compiuto progressi significativi nell'elaborazione del linguaggio naturale, ma affrontano sfide legate ai costi computazionali e all'inefficienza man mano che aumentano di dimensioni, specialmente in compiti specifici per dominio. I modelli linguistici di piccole dimensioni (SLM), d'altra parte, spesso faticano in questi compiti a causa di una capacità limitata e di dati di addestramento insufficienti. In questo articolo, introduciamo Dr. LLaMA, un metodo per migliorare gli SLM attraverso l'aumento dei dati generativi utilizzando gli LLM, concentrandoci su compiti di risposta a domande in ambito medico e sul dataset PubMedQA. I nostri risultati indicano che gli LLM affinano e diversificano efficacemente le coppie domanda-risposta esistenti, portando a un miglioramento delle prestazioni di un modello molto più piccolo su dataset di domande e risposte specifici per dominio dopo il fine-tuning. Questo studio evidenzia le sfide legate all'uso degli LLM per la risposta a domande specifiche per dominio e suggerisce potenziali direzioni di ricerca per affrontare queste limitazioni, con l'obiettivo finale di creare modelli più efficienti e capaci per applicazioni specializzate. Abbiamo anche reso disponibile il nostro codice per i ricercatori interessati.
Una pipeline completamente automatizzata per la ricostruzione di oggetti è fondamentale per la creazione di contenuti digitali. Sebbene il campo della ricostruzione 3D abbia assistito a sviluppi significativi, la rimozione dello sfondo per ottenere un modello pulito dell'oggetto si basa ancora su diverse forme di lavoro manuale, come l'etichettatura di bounding box, annotazioni di maschere e manipolazioni di mesh. In questo articolo, proponiamo un nuovo framework denominato AutoRecon per la scoperta e la ricostruzione automatizzata di un oggetto a partire da immagini multi-vista. Dimostriamo che gli oggetti in primo piano possono essere localizzati e segmentati in modo robusto dalle nuvole di punti SfM sfruttando le caratteristiche auto-supervisionate di un vision transformer 2D. Successivamente, ricostruiamo rappresentazioni neurali della scena scomponendole con una supervisione densa fornita dalle nuvole di punti scomposte, ottenendo una ricostruzione e segmentazione accurata dell'oggetto. Gli esperimenti condotti sui dataset DTU, BlendedMVS e CO3D-V2 dimostrano l'efficacia e la robustezza di AutoRecon.
Ottenere spiegazioni interpretabili per l'uomo di modelli linguistici di grandi dimensioni e ad ampio scopo è un obiettivo urgente per la sicurezza dell'IA. Tuttavia, è altrettanto importante che i nostri metodi di interpretabilità siano fedeli alle dinamiche causali sottostanti il comportamento del modello e siano in grado di generalizzare in modo robusto a input non visti. La Ricerca di Allineamento Distribuito (Distributed Alignment Search, DAS) è un potente metodo di discesa del gradiente basato su una teoria di astrazione causale che ha scoperto allineamenti perfetti tra algoritmi simbolici interpretabili e piccoli modelli di deep learning ottimizzati per compiti specifici. Nel presente articolo, scaliamo significativamente la DAS sostituendo i rimanenti passaggi di ricerca a forza bruta con parametri appresi — un approccio che chiamiamo DAS. Ciò ci consente di cercare in modo efficiente una struttura causale interpretabile in grandi modelli linguistici mentre seguono istruzioni. Applichiamo la DAS al modello Alpaca (7 miliardi di parametri), che, senza ulteriori modifiche, risolve un semplice problema di ragionamento numerico. Con la DAS, scopriamo che Alpaca lo fa implementando un modello causale con due variabili booleane interpretabili. Inoltre, troviamo che l'allineamento delle rappresentazioni neurali con queste variabili è robusto ai cambiamenti negli input e nelle istruzioni. Questi risultati segnano un primo passo verso una comprensione profonda del funzionamento interno dei nostri modelli linguistici più grandi e più ampiamente utilizzati.
Le interfacce in linguaggio naturale spesso richiedono dati supervisionati per tradurre le richieste degli utenti in programmi, query di database o altre rappresentazioni strutturate dell'intento. Durante la raccolta dei dati, può essere difficile anticipare e formalizzare l'intera gamma di esigenze degli utenti -- ad esempio, in un sistema progettato per gestire richieste semplici (come trova i miei incontri di domani o sposta il mio incontro con il mio manager a mezzogiorno), gli utenti potrebbero esprimere anche richieste più elaborate (come scambia tutte le mie chiamate di lunedì e martedì). Introduciamo un approccio per dotare un semplice modello di linguaggio-a-codice di capacità di gestire espressioni complesse attraverso un processo di decomposizione gerarchica del linguaggio naturale. Il nostro approccio utilizza un modello di linguaggio pre-addestrato per scomporre un'espressione complessa in una sequenza di passaggi più piccoli in linguaggio naturale, per poi interpretare ciascun passaggio utilizzando il modello di linguaggio-a-codice. Per testare il nostro approccio, raccogliamo e rilasciamo DeCU -- un nuovo benchmark NL-to-program per valutare la Decomposizione di Espressioni Complesse (Decomposition of Complex Utterances). Gli esperimenti dimostrano che l'approccio proposto consente l'interpretazione di espressioni complesse con quasi nessun dato di addestramento complesso, superando al contempo gli approcci standard di prompting few-shot.
L'apprendimento contrastivo è emerso come un framework efficiente per apprendere rappresentazioni multimodali. CLIP, un lavoro seminale in questo ambito, ha ottenuto risultati impressionanti addestrandosi su dati accoppiati immagine-testo utilizzando la funzione di perdita contrastiva. Recenti lavori affermano di aver migliorato CLIP utilizzando ulteriori perdite non contrastive ispirate all'apprendimento auto-supervisionato. Tuttavia, a volte è difficile distinguere il contributo di queste perdite aggiuntive da altri dettagli implementativi, come le tecniche di aumento dei dati o di regolarizzazione, utilizzati per addestrare il modello. Per fare luce su questo aspetto, in questo articolo proponiamo, implementiamo e valutiamo diverse baseline ottenute combinando l'apprendimento contrastivo con i recenti progressi nell'apprendimento auto-supervisionato. In particolare, utilizziamo le funzioni di perdita che si sono dimostrate efficaci per l'apprendimento auto-supervisionato visivo per allineare le modalità immagine e testo. Troviamo che queste baseline superano un'implementazione di base di CLIP. Tuttavia, quando viene utilizzata una ricetta di addestramento più robusta, il vantaggio scompare. Infatti, scopriamo che anche una semplice baseline CLIP può essere migliorata sostanzialmente, fino a un miglioramento relativo del 25% su task zero-shot downstream, utilizzando tecniche di addestramento ben note e popolari in altri sottocampi. Inoltre, scopriamo che è sufficiente applicare aumenti di dati su immagini e testo per ottenere la maggior parte del miglioramento raggiunto dai lavori precedenti. Con la nostra ricetta di addestramento migliorata per CLIP, otteniamo prestazioni all'avanguardia su quattro dataset standard e superiamo costantemente i lavori precedenti (fino a +4% sul dataset più grande), pur essendo sostanzialmente più semplice.
I recenti progressi nei metodi di pre-addestramento multimodale hanno dimostrato un'efficacia promettente nell'apprendimento di rappresentazioni 3D, allineando le caratteristiche tra la modalità 3D, la sua controparte 2D e la corrispondente modalità linguistica. Tuttavia, i metodi utilizzati dai framework di pre-addestramento multimodale esistenti per raccogliere dati multimodali per applicazioni 3D mancano di scalabilità e completezza, potenzialmente limitando il pieno potenziale dell'apprendimento multimodale. Il principale collo di bottiglia risiede nella scalabilità e completezza della modalità linguistica. Per affrontare questo problema, introduciamo ULIP-2, un framework di pre-addestramento multimodale che sfrutta modelli linguistici multimodali all'avanguardia (LLM) pre-addestrati su una vasta conoscenza per generare automaticamente controparti linguistiche olistiche per oggetti 3D. Abbiamo condotto esperimenti su due dataset su larga scala, Objaverse e ShapeNet55, e rilasciato i nostri dataset di triplette a tre modalità (Nube di Punti 3D - Immagine - Linguaggio), denominati "ULIP-Objaverse Triplets" e "ULIP-ShapeNet Triplets". ULIP-2 richiede solo i dati 3D stessi ed elimina la necessità di qualsiasi annotazione manuale, dimostrando la sua scalabilità; e ULIP-2 raggiunge miglioramenti significativi nella classificazione zero-shot su ModelNet40 (74% di accuratezza Top1). Inoltre, ULIP-2 stabilisce un nuovo record sul benchmark del mondo reale ScanObjectNN (91,5% di accuratezza complessiva) utilizzando solo 1,4 milioni di parametri (circa 10 volte in meno rispetto allo stato dell'arte attuale), segnando una svolta nell'apprendimento di rappresentazioni 3D multimodali scalabili senza annotazioni umane. Il codice e i dataset sono disponibili su https://github.com/salesforce/ULIP.
I modelli linguistici mascherati (MLM) si sono dimostrati efficaci per il rescoring di secondo passaggio nei sistemi di riconoscimento automatico del parlato (ASR). In questo lavoro, proponiamo Masked Audio Text Encoder (MATE), un modello linguistico mascherato multimodale per il rescoring che incorpora rappresentazioni acustiche nello spazio di input dell'MLM. Adottiamo l'apprendimento contrastivo per allineare efficacemente le modalità attraverso l'apprendimento di rappresentazioni condivise. Dimostriamo che l'uso di un rescoring multimodale è vantaggioso per la generalizzazione del dominio del sistema ASR quando i dati del dominio target non sono disponibili. MATE riduce il tasso di errore sulle parole (WER) del 4%-16% sui dataset in-domain e del 3%-7% sui dataset out-of-domain, rispetto alla baseline basata solo sul testo. Inoltre, con una quantità molto limitata di dati di addestramento (0,8 ore), MATE ottiene una riduzione del WER dell'8%-23% rispetto alla baseline di primo passaggio.
Studi recenti hanno dimostrato che i modelli a doppio encoder addestrati con il compito di ranking delle traduzioni a livello di frase sono metodi efficaci per l'embedding di frasi cross-lingua. Tuttavia, la nostra ricerca indica che l'allineamento a livello di token è altrettanto cruciale negli scenari multilingue, un aspetto che non è stato pienamente esplorato in precedenza. Sulla base delle nostre scoperte, proponiamo un framework di pre-addestramento a doppio allineamento (DAP) per l'embedding di frasi cross-lingua che incorpora sia l'allineamento a livello di frase che a livello di token. Per raggiungere questo obiettivo, introduciamo un nuovo compito di apprendimento della traduzione delle rappresentazioni (RTL), in cui il modello impara a utilizzare la rappresentazione contestualizzata di un token da un lato per ricostruire la sua controparte tradotta. Questo obiettivo di ricostruzione incoraggia il modello a incorporare informazioni di traduzione nella rappresentazione del token. Rispetto ad altri metodi di allineamento a livello di token, come il modeling del linguaggio di traduzione, l'RTL è più adatto per le architetture a doppio encoder e computazionalmente efficiente. Esperimenti estensivi su tre benchmark cross-lingua a livello di frase dimostrano che il nostro approccio può migliorare significativamente l'embedding delle frasi. Il nostro codice è disponibile all'indirizzo https://github.com/ChillingDream/DAP.
Nonostante il loro successo senza precedenti, anche i modelli linguistici più grandi commettono errori. Similmente a come gli esseri umani apprendono e migliorano utilizzando feedback, lavori precedenti hanno proposto di fornire ai modelli linguistici feedback in linguaggio naturale per guidarli nella correzione dei loro output. Poiché ottenere critiche generate da esseri umani è costoso, i ricercatori hanno ideato generatori di critiche appresi come alternativa ai critici umani, assumendo che sia possibile addestrare modelli downstream a utilizzare il feedback generato. Tuttavia, questo approccio non è applicabile a modelli black-box o ad accesso limitato come ChatGPT, poiché non possono essere sottoposti a fine-tuning. Inoltre, nell'era dei grandi agenti linguistici general-purpose, il fine-tuning non è né computazionalmente né spazialmente efficiente, in quanto comporta la creazione di molteplici copie della rete. In questo lavoro, introduciamo RL4F (Reinforcement Learning for Feedback), un framework collaborativo multi-agente in cui il generatore di critiche viene addestrato per massimizzare le prestazioni su un task finale di GPT-3, un modello fisso più di 200 volte più grande. RL4F produce critiche che aiutano GPT-3 a rivedere i suoi output. Studiamo tre dataset per la pianificazione di azioni, la sintesi e l'alfabetizzazione e mostriamo miglioramenti (~5% in media) in molteplici metriche di similarità testuale rispetto a baseline solide in tutti e tre i task.
Questo articolo presenta un approccio innovativo per rilevare testi generati da ChatGPT rispetto a quelli scritti da esseri umani, utilizzando modelli linguistici. A tal fine, abbiamo prima raccolto e rilasciato un dataset pre-elaborato denominato OpenGPTText, composto da contenuti riformulati generati tramite ChatGPT. Successivamente, abbiamo progettato, implementato e addestrato due diversi modelli per la classificazione del testo, utilizzando rispettivamente il Robustly Optimized BERT Pretraining Approach (RoBERTa) e il Text-to-Text Transfer Transformer (T5). I nostri modelli hanno ottenuto risultati notevoli, con un'accuratezza superiore al 97% sul dataset di test, valutata attraverso varie metriche. Inoltre, abbiamo condotto uno studio di interpretabilità per dimostrare la capacità del nostro modello di estrarre e differenziare le caratteristiche chiave tra testi scritti da esseri umani e quelli generati da ChatGPT. I nostri risultati forniscono importanti approfondimenti sull'uso efficace dei modelli linguistici per rilevare testi generati.