Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo QLoRA, un approccio efficiente per il fine-tuning che riduce l'uso della memoria al punto da consentire il fine-tuning di un modello con 65 miliardi di parametri su una singola GPU da 48 GB, preservando al contempo le prestazioni complete del fine-tuning a 16 bit. QLoRA propaga i gradienti attraverso un modello linguistico preaddestrato quantizzato a 4 bit e congelato, verso Adattatori a Basso Rango (LoRA). La nostra migliore famiglia di modelli, che abbiamo chiamato Guanaco, supera tutti i modelli rilasciati pubblicamente in precedenza sul benchmark Vicuna, raggiungendo il 99,3% delle prestazioni di ChatGPT con solo 24 ore di fine-tuning su una singola GPU. QLoRA introduce diverse innovazioni per risparmiare memoria senza sacrificare le prestazioni: (a) NormalFloat a 4 bit (NF4), un nuovo tipo di dati teoricamente ottimale per pesi distribuiti normalmente, (b) doppia quantizzazione per ridurre l'impronta media della memoria quantizzando le costanti di quantizzazione, e (c) ottimizzatori paginati per gestire picchi di memoria. Utilizziamo QLoRA per eseguire il fine-tuning di oltre 1.000 modelli, fornendo un'analisi dettagliata del rispetto delle istruzioni e delle prestazioni dei chatbot su 8 dataset di istruzioni, diversi tipi di modelli (LLaMA, T5) e scale di modelli che sarebbero impossibili da eseguire con il fine-tuning tradizionale (ad esempio, modelli con 33B e 65B di parametri). I nostri risultati dimostrano che il fine-tuning con QLoRA su un piccolo dataset di alta qualità porta a risultati all'avanguardia, anche utilizzando modelli più piccoli rispetto ai precedenti state-of-the-art. Forniamo un'analisi dettagliata delle prestazioni dei chatbot basata sia su valutazioni umane che su GPT-4, dimostrando che le valutazioni di GPT-4 sono un'alternativa economica e ragionevole alle valutazioni umane. Inoltre, scopriamo che gli attuali benchmark per chatbot non sono affidabili per valutare accuratamente i livelli di prestazione dei chatbot. Un'analisi selettiva evidenzia dove Guanaco fallisce rispetto a ChatGPT. Rilasciamo tutti i nostri modelli e il codice, inclusi i kernel CUDA per l'addestramento a 4 bit.
Il fine-tuning su dati di istruzione è stato ampiamente validato come pratica efficace per implementare modelli linguistici di chat come ChatGPT. Scalare la diversità e la qualità di tali dati, sebbene semplice, ha un'alta probabilità di portare a un miglioramento delle prestazioni. Questo articolo mira a migliorare ulteriormente il limite superiore dei modelli open-source. Iniziamo fornendo un dataset su larga scala, sistematicamente progettato, diversificato e informativo di conversazioni istruzionali, UltraChat, che non coinvolge query umane. Il nostro obiettivo è catturare l'ampiezza delle interazioni che un umano potrebbe avere con un assistente AI e impiegare un framework completo per generare iterativamente conversazioni multi-turn. UltraChat contiene 1,5 milioni di dialoghi multi-turn di alta qualità e copre un'ampia gamma di argomenti e istruzioni. La nostra analisi statistica di UltraChat ne rivela la superiorità in varie metriche chiave, tra cui scala, lunghezza media, diversità, coerenza, ecc., consolidando la sua posizione come dataset open-source leader. Basandoci su UltraChat, abbiamo eseguito il fine-tuning di un modello LLaMA per creare un potente modello conversazionale, UltraLLaMA. Le nostre valutazioni indicano che UltraLLaMA supera costantemente altri modelli open-source, incluso Vicuna, il precedente modello open-source riconosciuto come stato dell'arte. Il dataset e il modello saranno rilasciati pubblicamente\url{https://github.com/thunlp/UltraChat}.
Presentiamo Goat, un modello LLaMA fine-tuned che supera significativamente GPT-4 in una gamma di compiti aritmetici. Addestrato su un dataset generato sinteticamente, Goat raggiunge prestazioni all'avanguardia nel sottocompito aritmetico di BIG-bench. In particolare, Goat-7B in modalità zero-shot eguaglia o addirittura supera l'accuratezza ottenuta da PaLM-540B in modalità few-shot. Sorprendentemente, Goat può raggiungere un'accuratezza quasi perfetta nell'addizione e sottrazione di numeri grandi attraverso il solo fine-tuning supervisionato, cosa quasi impossibile con precedenti modelli linguistici pre-addestrati come Bloom, OPT, GPT-NeoX, ecc. Attribuiamo l'eccezionale performance di Goat alla tokenizzazione coerente dei numeri di LLaMA. Per affrontare compiti più complessi come la moltiplicazione e divisione di numeri grandi, proponiamo un approccio che classifica i compiti in base alla loro apprendibilità, e successivamente scompone i compiti non apprendibili, come la moltiplicazione e divisione a più cifre, in una serie di compiti apprendibili sfruttando i principi aritmetici di base. Esaminiamo approfonditamente le prestazioni del nostro modello, offrendo una valutazione completa dell'efficacia dei nostri passaggi di scomposizione proposti. Inoltre, Goat-7B può essere facilmente addestrato utilizzando LoRA su una GPU con 24GB di VRAM, facilitando la riproducibilità per altri ricercatori. Rilasciamo il nostro modello, il dataset e lo script Python per la generazione del dataset.
Un rischio significativo nell'utilizzo di modelli linguistici in applicazioni pratiche è la loro tendenza a generare affermazioni errate, fenomeno noto come allucinazione. Le allucinazioni sono spesso attribuite a lacune conoscitive nei modelli linguistici, ma ipotizziamo che, in alcuni casi, quando cercano di giustificare allucinazioni precedentemente generate, i modelli linguistici producano affermazioni false che potrebbero invece riconoscere come errate. Abbiamo costruito tre dataset di domande e risposte in cui ChatGPT e GPT-4 spesso forniscono una risposta errata e offrono una spiegazione contenente almeno un'affermazione inesatta. In modo cruciale, abbiamo scoperto che ChatGPT e GPT-4 sono in grado di identificare rispettivamente il 67% e l'87% dei propri errori. Definiamo questo fenomeno come "effetto valanga delle allucinazioni": un modello linguistico si impegna eccessivamente in errori iniziali, portando a ulteriori errori che altrimenti non commetterebbe.
I modelli linguistici per il parlato (SpeechLMs) elaborano e generano esclusivamente dati acustici, senza supervisione testuale. In questo lavoro, proponiamo TWIST, un metodo per addestrare SpeechLMs utilizzando un avvio caldo da modelli linguistici testuali preaddestrati. Dimostriamo, attraverso valutazioni sia automatiche che umane, che TWIST supera un SpeechLM avviato da zero in tutti gli aspetti. Analizziamo empiricamente l'effetto di diverse scelte progettuali del modello, come il tokenizer del parlato, il modello testuale preaddestrato e la dimensione del dataset. Scopriamo che sia la scala del modello che quella del dataset svolgono un ruolo importante nella costruzione di SpeechLMs con prestazioni migliori. Sulla base delle nostre osservazioni, presentiamo il più grande SpeechLM (a nostra conoscenza) sia in termini di numero di parametri che di dati di addestramento. Introduciamo inoltre due versioni parlate del benchmark testuale StoryCloze per migliorare ulteriormente la valutazione del modello e promuovere future ricerche nel campo. Campioni audio sono disponibili sul nostro sito: https://pages.cs.huji.ac.il/adiyoss-lab/twist/.
L'ascesa dei grandi modelli linguistici (LLM) ha aperto la strada a varie applicazioni di questa tecnologia nello sviluppo del software. In particolare, i LLM generativi si sono dimostrati efficaci nel potenziare strumenti di creazione del codice basati sull'intelligenza artificiale, in grado di suggerire intere istruzioni o blocchi di codice durante la scrittura. In questo articolo presentiamo CodeCompose, uno strumento di creazione del codice assistito dall'IA sviluppato e implementato internamente presso Meta. CodeCompose si basa sul modello LLM InCoder, che combina capacità generative con la bidirezionalità. Abbiamo scalato CodeCompose per servire decine di migliaia di sviluppatori in Meta, supportando oltre 10 linguaggi di programmazione e diverse interfacce di codifica. Discutiamo le sfide uniche in termini di esperienza utente e metriche che emergono quando si implementano tali strumenti in contesti industriali su larga scala. Presentiamo la nostra esperienza nel prendere decisioni di progettazione riguardanti il modello e l'architettura del sistema per CodeCompose, affrontando queste sfide. Infine, presentiamo le metriche della nostra implementazione su larga scala di CodeCompose, che mostrano il suo impatto sull'esperienza di creazione del codice interna a Meta in un periodo di 15 giorni, durante il quale CodeCompose ha generato 4,5 milioni di suggerimenti. Le metriche quantitative rivelano che (i) CodeCompose ha un tasso di accettazione del 22% in diversi linguaggi e (ii) l'8% del codice digitato dagli utenti di CodeCompose deriva dall'accettazione dei suoi suggerimenti. Il feedback qualitativo indica una ricezione positiva schiacciante del 91,5% per CodeCompose. Oltre ad assistere nella creazione del codice, CodeCompose sta introducendo altri effetti positivi collaterali, come incoraggiare gli sviluppatori a generare più documentazione nel codice e aiutarli nella scoperta di nuove API.
Il contesto a dimensione fissa dei Transformer rende i modelli GPT incapaci di generare testi di lunghezza arbitraria. In questo articolo, introduciamo RecurrentGPT, un simulacro basato sul linguaggio del meccanismo di ricorrenza presente nelle RNN. RecurrentGPT è costruito su un modello linguistico di grandi dimensioni (LLM) come ChatGPT e utilizza il linguaggio naturale per simulare il meccanismo di memoria a lungo e breve termine (LSTM) in un LSTM. Ad ogni passo temporale, RecurrentGPT genera un paragrafo di testo e aggiorna la sua memoria a lungo e breve termine basata sul linguaggio, memorizzata rispettivamente sull'hard drive e nel prompt. Questo meccanismo di ricorrenza consente a RecurrentGPT di generare testi di lunghezza arbitraria senza dimenticare. Poiché gli utenti umani possono facilmente osservare e modificare le memorie in linguaggio naturale, RecurrentGPT è interpretabile e consente la generazione interattiva di testi lunghi. RecurrentGPT rappresenta un primo passo verso i sistemi di scrittura assistita da computer di prossima generazione, che vanno oltre i suggerimenti di editing locali. Oltre a produrre contenuti generati dall'intelligenza artificiale (AIGC), dimostriamo anche la possibilità di utilizzare RecurrentGPT come una narrativa interattiva che interagisce direttamente con i consumatori. Chiamiamo questo utilizzo dei modelli generativi "AI As Contents" (AIAC), che riteniamo essere la prossima forma di AIGC convenzionale. Dimostriamo inoltre la possibilità di utilizzare RecurrentGPT per creare narrativa interattiva personalizzata che interagisce direttamente con i lettori invece che con gli scrittori. Più in generale, RecurrentGPT dimostra l'utilità di prendere in prestito idee dai design di modelli popolari nella scienza cognitiva e nel deep learning per il prompting degli LLM. Il nostro codice è disponibile all'indirizzo https://github.com/aiwaves-cn/RecurrentGPT e una demo online è disponibile all'indirizzo https://www.aiwaves.org/recurrentgpt.
Gli esseri umani imparano a padroneggiare repertori aperti di competenze immaginando e praticando i propri obiettivi. Questo processo di apprendimento autotelico, letteralmente il perseguimento di obiettivi (telos) auto-generati (auto), diventa sempre più aperto man mano che gli obiettivi diventano più diversificati, astratti e creativi. L'esplorazione risultante dello spazio delle possibili competenze è supportata da un'esplorazione inter-individuale: le rappresentazioni degli obiettivi si evolvono culturalmente e vengono trasmesse tra gli individui, in particolare attraverso il linguaggio. Gli agenti artificiali attuali si basano principalmente su rappresentazioni predefinite degli obiettivi corrispondenti a spazi di obiettivi che sono o limitati (ad esempio, liste di istruzioni) o illimitati (ad esempio, lo spazio dei possibili input visivi), ma raramente sono dotati della capacità di rimodellare le proprie rappresentazioni degli obiettivi, di formare nuove astrazioni o di immaginare obiettivi creativi. In questo articolo, introduciamo un agente autotelico potenziato da un modello linguistico (LMA3) che sfrutta un modello linguistico preaddestrato (LM) per supportare la rappresentazione, la generazione e l'apprendimento di obiettivi diversificati, astratti e rilevanti per gli esseri umani. Il LM viene utilizzato come un modello imperfetto della trasmissione culturale umana; un tentativo di catturare aspetti del senso comune, della fisica intuitiva e degli interessi generali degli esseri umani. Nello specifico, supporta tre componenti chiave dell'architettura autotelica: 1) un rietichettatore che descrive gli obiettivi raggiunti nelle traiettorie dell'agente, 2) un generatore di obiettivi che suggerisce nuovi obiettivi di alto livello insieme alla loro scomposizione in sotto-obiettivi che l'agente già padroneggia, e 3) funzioni di ricompensa per ciascuno di questi obiettivi. Senza fare affidamento su rappresentazioni di obiettivi, funzioni di ricompensa o curriculum predefiniti, dimostriamo che gli agenti LMA3 imparano a padroneggiare una vasta gamma di competenze in un ambiente testuale indipendente dal compito.
In questo articolo, conduciamo un'indagine approfondita sulle capacità di ragionamento dei Large Language Models (LLM), concentrandoci specificamente sui modelli Open Pretrained Transformers (OPT) come rappresentanti di tali modelli. Il nostro studio prevede il fine-tuning di tre diverse dimensioni di OPT su un corpus di ragionamento accuratamente curato, ottenendo due serie di modelli fine-tuned: OPT-R, fine-tuned senza spiegazioni, e OPT-RE, fine-tuned con spiegazioni. Valutiamo quindi tutti i modelli su 57 task out-of-domain tratti dal benchmark SUPER-NATURALINSTRUCTIONS, coprendo 26 abilità di ragionamento distinte, utilizzando tre tecniche di prompting. Attraverso una griglia completa di 27 configurazioni e 6.156 valutazioni di test, esploriamo le dimensioni del fine-tuning, del prompting e della scala per comprendere il ruolo delle spiegazioni su diverse abilità di ragionamento. I nostri risultati rivelano che la presenza di spiegazioni negli esempi fewshot non ha un impatto significativo sulle prestazioni del modello quando quest'ultimo è fine-tuned, mentre influisce positivamente sulla controparte non fine-tuned. Inoltre, osserviamo un lieve ma costante aumento dell'accuratezza di classificazione man mano che incorporiamo spiegazioni durante il prompting e il fine-tuning, rispettivamente. Infine, offriamo approfondimenti su quali abilità traggono il massimo vantaggio dall'incorporazione di spiegazioni durante il fine-tuning e il prompting, come il ragionamento Numerico (+20,4%) e Analogico (+13,9%), nonché su quelle che mostrano effetti trascurabili o negativi.
Proponiamo un nuovo benchmark multimodale per video - il Perception Test - per valutare le capacità percettive e di ragionamento di modelli multimodali pre-addestrati (ad esempio Flamingo, BEiT-3 o GPT-4). Rispetto ai benchmark esistenti che si concentrano su compiti computazionali (ad esempio classificazione, rilevamento o tracciamento), il Perception Test si focalizza su abilità (Memoria, Astrazione, Fisica, Semantica) e tipi di ragionamento (descrittivo, esplicativo, predittivo, controfattuale) attraverso le modalità video, audio e testo, fornendo uno strumento di valutazione completo ed efficiente. Il benchmark analizza le capacità di trasferimento dei modelli pre-addestrati, in un regime zero-shot / few-shot o con un fine-tuning limitato. A tal fine, il Perception Test introduce 11.6k video del mondo reale, con una durata media di 23 secondi, progettati per mostrare situazioni percettivamente interessanti, girati da circa 100 partecipanti in tutto il mondo. I video sono densamente annotati con sei tipi di etichette (domande-risposte a scelta multipla e ancorate al video, tracciamenti di oggetti e punti, segmenti temporali di azioni e suoni), consentendo valutazioni sia linguistiche che non linguistiche. Le suddivisioni per il fine-tuning e la validazione del benchmark sono disponibili pubblicamente (licenza CC-BY), insieme a un server di sfida con una suddivisione di test riservata. I risultati di riferimento umani rispetto ai modelli all'avanguardia per QA su video mostrano un divario significativo nelle prestazioni (91,4% vs 43,6%), suggerendo che c'è ampio margine di miglioramento nella comprensione multimodale dei video. Dataset, codice di riferimento e server di sfida sono disponibili su https://github.com/deepmind/perception_test
Allineare i grandi modelli linguistici (LLM) ai valori umani è diventato sempre più importante poiché consente un controllo sofisticato degli LLM, ad esempio facendoli seguire istruzioni specifiche mantenendoli meno tossici. Tuttavia, ciò richiede una quantità significativa di dimostrazioni e feedback umani. Recentemente, modelli open-source hanno tentato di replicare il processo di apprendimento dell'allineamento distillando dati da LLM già allineati come InstructGPT o ChatGPT. Sebbene questo processo riduca lo sforzo umano, la costruzione di questi dataset dipende fortemente dai modelli insegnanti. In questo lavoro, proponiamo un nuovo framework per l'apprendimento dell'allineamento con quasi nessun lavoro umano e nessuna dipendenza da LLM pre-allineati. Innanzitutto, eseguiamo la modellazione della ricompensa (RM) con feedback sintetico confrontando le risposte di LLM standard di varie dimensioni e prompt. Successivamente, utilizziamo la RM per simulare dimostrazioni di alta qualità per addestrare una politica supervisionata e per ottimizzare ulteriormente il modello con l'apprendimento per rinforzo. Il nostro modello risultante, Aligned Language Model with Synthetic Training dataset (ALMoST), supera i modelli open-source, inclusi Alpaca, Dolly e OpenAssistant, che sono addestrati sugli output di InstructGPT o su istruzioni annotate da esseri umani. Il nostro modello da 7B supera i modelli da 12-13B nei test A/B utilizzando GPT-4 come giudice, con una percentuale di vittoria media di circa il 75%.
La scarsità di dati rappresenta un problema cruciale per lo sviluppo di sistemi NLP altamente multilingue. Tuttavia, per molte lingue sottorappresentate (ULs) — lingue per le quali la ricerca NLP è particolarmente indietro nel soddisfare le esigenze degli utenti — è fattibile annotare piccole quantità di dati. Motivati da ciò, proponiamo XTREME-UP, un benchmark definito da: il suo focus sullo scenario di dati scarsi piuttosto che sullo zero-shot; il suo focus su task centrati sull'utente — task ampiamente adottati dai parlanti di lingue ad alta risorsa; e il suo focus sulle lingue sottorappresentate, dove questo scenario di dati scarsi tende a essere più realistico. XTREME-UP valuta le capacità dei modelli linguistici su 88 lingue sottorappresentate attraverso 9 tecnologie chiave centrate sull'utente, tra cui ASR, OCR, MT e task di accesso alle informazioni di utilità generale. Creiamo nuovi dataset per OCR, completamento automatico, parsing semantico e traslitterazione, e ci basiamo e perfezioniamo dataset esistenti per altri task. XTREME-UP fornisce una metodologia per valutare molti scenari di modellazione, tra cui testo-only, multi-modale (visione, audio e testo), ottimizzazione supervisionata dei parametri e apprendimento in-context. Valutiamo modelli comunemente utilizzati sul benchmark. Rilasciamo tutto il codice e gli script per addestrare e valutare i modelli.