Articoli di ricerca IA selezionati quotidianamente con traduzioni
I grandi modelli linguistici (LLM) addestrati su corpora di dominio generale hanno mostrato risultati notevoli nelle attività di elaborazione del linguaggio naturale (NLP). Tuttavia, ricerche precedenti hanno dimostrato che i LLM addestrati utilizzando corpora focalizzati su domini specifici ottengono prestazioni migliori in compiti specializzati. Ispirati da questa intuizione fondamentale, abbiamo sviluppato INDUS, una suite completa di LLM progettati specificamente per i domini delle scienze della Terra, biologia, fisica, eliofisica, scienze planetarie e astrofisica, addestrati utilizzando corpora scientifici curati provenienti da diverse fonti di dati. La suite di modelli include: (1) un modello encoder addestrato utilizzando vocabolario e corpora specifici del dominio per affrontare compiti di comprensione del linguaggio naturale, (2) un modello di embedding testuale generale basato su apprendimento contrastivo, addestrato utilizzando un insieme diversificato di dataset provenienti da più fonti per affrontare compiti di recupero delle informazioni, e (3) versioni più piccole di questi modelli create utilizzando tecniche di distillazione della conoscenza per affrontare applicazioni con vincoli di latenza o risorse. Abbiamo inoltre creato tre nuovi dataset di benchmark scientifici, ovvero CLIMATE-CHANGE-NER (riconoscimento di entità), NASA-QA (QA estrattivo) e NASA-IR (IR), per accelerare la ricerca in questi campi multidisciplinari. Infine, dimostriamo che i nostri modelli superano sia gli encoder generici (RoBERTa) che gli encoder specifici per dominio esistenti (SciBERT) in questi nuovi compiti, così come nei compiti di benchmark esistenti nei domini di interesse.
L'elevato consumo di memoria è stato un importante collo di bottiglia per il dispiegamento di modelli linguistici di grandi dimensioni ad alta produttività in applicazioni reali. Oltre al gran numero di parametri, la cache chiave-valore (KV) per il meccanismo di attenzione nell'architettura transformer consuma una quantità significativa di memoria, specialmente quando il numero di strati è elevato nei modelli linguistici profondi. In questo articolo, proponiamo un metodo innovativo che calcola e memorizza nella cache le KV solo per un numero ridotto di strati, riducendo così significativamente il consumo di memoria e migliorando la produttività durante l'inferenza. I nostri esperimenti su modelli linguistici di grandi dimensioni dimostrano che il nostro metodo raggiunge una produttività fino a 26 volte superiore rispetto ai transformer standard e prestazioni competitive nella modellazione linguistica e nei task downstream. Inoltre, il nostro metodo è ortogonale alle tecniche esistenti per il risparmio di memoria nei transformer, quindi è semplice integrarlo con il nostro modello, ottenendo ulteriori miglioramenti nell'efficienza di inferenza. Il nostro codice è disponibile all'indirizzo https://github.com/whyNLP/LCKV.
Comprendere come le prestazioni dei modelli linguistici variano con la scala è fondamentale per lo sviluppo di benchmark e algoritmi. Le leggi di scala rappresentano un approccio per costruire questa comprensione, ma la necessità di addestrare modelli su molte scale diverse ne ha limitato l'uso. Proponiamo un approccio alternativo, di tipo osservativo, che aggira l'addestramento dei modelli e costruisce invece le leggi di scala a partire da circa 80 modelli disponibili pubblicamente. Costruire una singola legge di scala da più famiglie di modelli è impegnativo a causa delle grandi variazioni nelle loro efficienze computazionali di addestramento e nelle capacità. Tuttavia, dimostriamo che queste variazioni sono coerenti con una semplice legge di scala generalizzata, in cui le prestazioni del modello linguistico sono una funzione di uno spazio di capacità a bassa dimensionalità, e le famiglie di modelli variano solo nella loro efficienza nel convertire il calcolo di addestramento in capacità. Utilizzando questo approccio, dimostriamo la sorprendente prevedibilità di fenomeni di scala complessi: mostriamo che diversi fenomeni emergenti seguono un comportamento regolare e sigmoidale e sono prevedibili a partire da modelli piccoli; dimostriamo che le prestazioni di agenti come GPT-4 possono essere previste con precisione da benchmark non agentici più semplici; e mostriamo come prevedere l'impatto di interventi post-addestramento come il Chain-of-Thought e la Self-Consistency man mano che le capacità dei modelli linguistici continuano a migliorare.
Gli studi precedenti sulla comprensione delle scene 3D hanno principalmente sviluppato modelli specializzati per compiti specifici o richiesto una messa a punto specifica per ciascun compito. In questo studio, proponiamo Grounded 3D-LLM, che esplora il potenziale dei grandi modelli multimodali 3D (3D LMMs) per consolidare vari compiti di visione 3D all'interno di un framework generativo unificato. Il modello utilizza token di riferimento della scena come frasi nominali speciali per riferirsi alle scene 3D, consentendo la gestione di sequenze che intervallano dati 3D e testuali. Offre un approccio naturale per tradurre i compiti di visione 3D in formati linguistici utilizzando modelli di istruzione specifici per ciascun compito. Per facilitare l'uso dei token di riferimento nella successiva modellazione linguistica, abbiamo curato ampi dataset linguistici ancorati che offrono una corrispondenza più precisa tra scena e testo a livello di frase, sfruttando etichette di oggetti esistenti. Successivamente, abbiamo introdotto il Contrastive LAnguage-Scene Pre-training (CLASP) per sfruttare efficacemente questi dati, integrando così la visione 3D con i modelli linguistici. La nostra valutazione completa copre compiti aperti come la descrizione densa e il question-answering 3D, insieme a compiti chiusi come il rilevamento di oggetti e l'ancoraggio linguistico. Gli esperimenti su più benchmark 3D rivelano le prestazioni leader e l'ampia applicabilità di Grounded 3D-LLM. Codice e dataset saranno rilasciati sulla pagina del progetto: https://groundedscenellm.github.io/grounded_3d-llm.github.io.
I Large Language Model (LLM) hanno attirato una significativa attenzione nel campo dell'elaborazione del linguaggio naturale (NLP) grazie alla loro vasta gamma di applicazioni. Tuttavia, l'addestramento di LLM per lingue diverse dall'inglese presenta sfide considerevoli, a causa della difficoltà nell'acquisire corpora su larga scala e delle risorse computazionali necessarie. In questo articolo, proponiamo ChatFlow, un LLM basato sul trasferimento interlinguistico, per affrontare queste sfide e addestrare modelli linguistici cinesi di grandi dimensioni in modo economicamente vantaggioso. Utilizziamo una combinazione di corpora cinesi, inglesi e paralleli per addestrare continuamente il modello LLaMA2, con l'obiettivo di allineare le rappresentazioni interlinguistiche e facilitare il trasferimento di conoscenze specificamente al modello linguistico cinese. Inoltre, impieghiamo un campionatore dinamico dei dati per far progredire gradualmente il modello dalla pre-addestramento non supervisionato al fine-tuning supervisionato. I risultati sperimentali dimostrano che il nostro approccio accelera la convergenza del modello e raggiunge prestazioni superiori. Valutiamo ChatFlow su benchmark popolari cinesi e inglesi, e i risultati indicano che supera altri modelli cinesi post-addestrati su LLaMA-2-7B.