Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli linguistici di grandi dimensioni (LLM) stanno guadagnando una popolarità crescente sia in ambito accademico che industriale, grazie alle loro prestazioni senza precedenti in varie applicazioni. Poiché gli LLM continuano a svolgere un ruolo vitale sia nella ricerca che nell'uso quotidiano, la loro valutazione diventa sempre più critica, non solo a livello di compito, ma anche a livello sociale per una migliore comprensione dei loro potenziali rischi. Negli ultimi anni, sono stati compiuti sforzi significativi per esaminare gli LLM da diverse prospettive. Questo articolo presenta una revisione completa di questi metodi di valutazione per gli LLM, concentrandosi su tre dimensioni chiave: cosa valutare, dove valutare e come valutare. In primo luogo, forniamo una panoramica dal punto di vista dei compiti di valutazione, comprendendo compiti generali di elaborazione del linguaggio naturale, ragionamento, uso medico, etica, educazione, scienze naturali e sociali, applicazioni di agenti e altre aree. In secondo luogo, rispondiamo alle domande "dove" e "come" approfondendo i metodi di valutazione e i benchmark, che costituiscono componenti cruciali nella valutazione delle prestazioni degli LLM. Successivamente, riassumiamo i casi di successo e fallimento degli LLM in diversi compiti. Infine, mettiamo in luce diverse sfide future che si prospettano nella valutazione degli LLM. Il nostro obiettivo è offrire intuizioni preziose ai ricercatori nel campo della valutazione degli LLM, contribuendo così allo sviluppo di LLM più competenti. Il nostro punto chiave è che la valutazione dovrebbe essere trattata come una disciplina essenziale per meglio supportare lo sviluppo degli LLM. Manteniamo costantemente i materiali open-source correlati all'indirizzo: https://github.com/MLGroupJLU/LLM-eval-survey.
Sebbene i recenti modelli linguistici abbiano la capacità di elaborare contesti di input lunghi, si sa relativamente poco su quanto bene questi modelli utilizzino contesti più estesi. Analizziamo le prestazioni dei modelli linguistici in due compiti che richiedono l'identificazione di informazioni rilevanti all'interno dei loro contesti di input: il question answering su più documenti e il recupero di coppie chiave-valore. Troviamo che le prestazioni sono spesso più elevate quando le informazioni rilevanti si trovano all'inizio o alla fine del contesto di input, e si degradano significativamente quando i modelli devono accedere a informazioni rilevanti nel mezzo di contesti lunghi. Inoltre, le prestazioni diminuiscono sostanzialmente all'aumentare della lunghezza del contesto di input, anche per modelli esplicitamente progettati per contesti lunghi. La nostra analisi fornisce una migliore comprensione di come i modelli linguistici utilizzano il loro contesto di input e propone nuovi protocolli di valutazione per i futuri modelli a contesto lungo.
Molti approcci cognitivi al benessere, come il riconoscimento e la ristrutturazione di pensieri disfunzionali, hanno ricevuto un notevole supporto empirico nel corso degli ultimi decenni, ma mancano ancora di una diffusione veramente ampia in formato di auto-aiuto. Un ostacolo a questa adozione è la mancanza di materiale di pratica dedicato sufficientemente specifico e diversificato. Questo lavoro esamina se i modelli linguistici attuali possano essere sfruttati sia per produrre una quantità virtualmente illimitata di materiale di pratica che illustri schemi di pensiero disfunzionali standard corrispondenti a contesti specifici, sia per generare proposte adeguate di ristrutturazione positiva. Proponiamo PATTERNREFRAME, un nuovo dataset di circa 10.000 esempi di pensieri contenenti schemi di pensiero disfunzionali condizionati su una determinata persona, accompagnati da circa 27.000 ristrutturazioni positive. Utilizzando questo dataset per addestrare e/o valutare i modelli attuali, dimostriamo che i modelli esistenti possono già essere strumenti potenti per aiutare a generare un'abbondanza di materiale di pratica e ipotesi personalizzati, senza o con un addestramento aggiuntivo minimo richiesto.
I modelli linguistici di grandi dimensioni possiedono una capacità eccezionale di incorporare nuove informazioni in modo contestuale. Tuttavia, il pieno potenziale di tale approccio è spesso limitato da una restrizione nella lunghezza effettiva del contesto. Una soluzione a questo problema consiste nel dotare uno strato di attenzione di accesso a una memoria esterna, composta da coppie (chiave, valore). Tuttavia, all'aumentare del numero di documenti, la proporzione di chiavi rilevanti rispetto a quelle irrilevanti diminuisce, portando il modello a concentrarsi maggiormente sulle chiavi irrilevanti. Identifichiamo una sfida significativa, denominata problema della distrazione, in cui le chiavi associate a diversi valori semantici potrebbero sovrapporsi, rendendole difficili da distinguere. Per affrontare questo problema, introduciamo il Focused Transformer (FoT), una tecnica che utilizza un processo di addestramento ispirato all'apprendimento contrastivo. Questo approccio innovativo migliora la struttura dello spazio (chiave, valore), consentendo un'estensione della lunghezza del contesto. Il nostro metodo permette di ottimizzare modelli preesistenti su larga scala per estendere il loro contesto effettivo. Questo è dimostrato dalla nostra ottimizzazione dei checkpoint OpenLLaMA da 3B e 7B. I modelli risultanti, che abbiamo chiamato LongLLaMA, mostrano progressi in compiti che richiedono un contesto lungo. Illustriamo inoltre che i nostri modelli LongLLaMA gestiscono abilmente una lunghezza del contesto di 256 k per il recupero di passkey.
I modelli linguistici autoregressivi di grandi dimensioni (LLM) hanno compiuto progressi significativi in vari compiti di generazione del linguaggio naturale. Tuttavia, comportano un elevato costo computazionale e una latenza derivante dalla generazione token per token di tipo autoregressivo. Per affrontare questo problema, sono state proposte diverse strategie per ridurre il costo computazionale utilizzando approcci di uscita anticipata. Queste strategie consentono una generazione più rapida del testo riducendo il calcolo senza applicare il grafo computazionale completo a ciascun token. Sebbene i metodi esistenti di uscita anticipata a livello di token mostrino risultati promettenti per l'inferenza online, non possono essere facilmente applicati per l'inferenza in batch e la memorizzazione Key-Value (KV). Ciò è dovuto al fatto che devono attendere che l'ultimo token in un batch esca prima di poter interrompere il calcolo. Questo limita fortemente l'applicazione pratica di tali tecniche. In questo articolo, proponiamo un metodo semplice ed efficace di uscita anticipata a livello di token, denominato SkipDecode, progettato per funzionare in modo fluido con l'inferenza in batch e la memorizzazione KV. Supera i limiti precedenti stabilendo un punto di uscita singolo per ogni token in un batch in ciascuna posizione della sequenza. Garantisce inoltre una diminuzione monotona dei punti di uscita, eliminando così la necessità di ricalcolare le cache KV per i token precedenti. Piuttosto che interrompere prematuramente il calcolo come nei lavori precedenti, il nostro approccio bypassa gli strati intermedi e inferiori, dedicando la maggior parte delle risorse computazionali agli strati superiori, consentendo ai token successivi di beneficiare del calcolo effettuato dai token precedenti. I nostri risultati sperimentali dimostrano che SkipDecode può ottenere un'accelerazione dell'inferenza da 2x a 5x con una regressione trascurabile in una varietà di compiti. Ciò è stato raggiunto utilizzando modelli OPT con 1,3 miliardi e 6,7 miliardi di parametri, mantenendo al contempo la compatibilità diretta con le tecniche di ottimizzazione del batching e della memorizzazione KV.
In questo articolo, ci concentriamo su Whisper, un recente modello di riconoscimento vocale automatico addestrato su un ampio corpus di 680k ore di discorsi etichettati registrati in condizioni diverse. Iniziamo mostrando un risultato interessante: sebbene Whisper sia molto robusto rispetto ai rumori di fondo del mondo reale (ad esempio, la musica), la sua rappresentazione audio non è in realtà invariante al rumore, ma è invece altamente correlata ai suoni non vocali, indicando che Whisper riconosce il parlato condizionato dal tipo di rumore. Sulla base di questa scoperta, costruiamo un modello unificato per l'etichettatura audio e il riconoscimento vocale, Whisper-AT, congelando la struttura principale di Whisper e addestrando un modello leggero per l'etichettatura audio sopra di esso. Con un costo computazionale aggiuntivo inferiore all'1%, Whisper-AT è in grado di riconoscere eventi audio, oltre al testo parlato, in un singolo passaggio in avanti.
Valutiamo le capacità di comprensione video dei modelli di base esistenti utilizzando un protocollo sperimentale accuratamente progettato, composto da tre task fondamentali (riconoscimento delle azioni, localizzazione temporale e localizzazione spaziotemporale), otto dataset ampiamente riconosciuti dalla comunità e quattro metodi di adattamento per personalizzare un modello di base (FM) per un task specifico. Inoltre, proponiamo un punteggio scalare VideoGLUE (VGS) per misurare l'efficacia e l'efficienza di un FM quando si adatta a task generali di comprensione video. Le nostre principali osservazioni sono le seguenti. In primo luogo, i modelli specializzati per task specifici superano significativamente i sei FM studiati in questo lavoro, in netto contrasto con quanto gli FM hanno ottenuto nella comprensione del linguaggio naturale e delle immagini. In secondo luogo, gli FM nativi per il video, il cui dato di pre-addestramento include la modalità video, sono generalmente migliori degli FM nativi per le immagini nel classificare video ricchi di movimento, localizzare azioni nel tempo e comprendere video con più di un'azione. In terzo luogo, gli FM nativi per il video possono ottenere buoni risultati su task video con adattamenti leggeri ai task downstream (ad esempio, congelando i backbone degli FM), mentre gli FM nativi per le immagini vincono nel fine-tuning end-to-end completo. Le prime due osservazioni rivelano la necessità e le enormi opportunità di condurre ricerche su FM focalizzati sul video, mentre l'ultima conferma che sia i task che i metodi di adattamento sono rilevanti quando si tratta di valutare gli FM.