HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

5 papers found

INDUS: Modelli Linguistici Efficienti ed Efficaci per Applicazioni Scientifiche
INDUS: Effective and Efficient Language Models for Scientific Applications

May 17

ByBishwaranjan Bhattacharjee, Aashka Trivedi, Masayasu Muraoka, Muthukumaran Ramasubramanian, Takuma Udagawa, Iksha Gurung, Rong Zhang, Bharath Dandala, Rahul Ramachandran, Manil Maskey, Kayleen Bugbee, Mike Little, Elizabeth Fancher, Lauren Sanders, Sylvain Costes, Sergi Blanco-Cuaresma, Kelly Lockhart, Thomas Allen, Felix Grazes, Megan Ansdel, Alberto Accomazzi, Yousef El-Kurdi, Davis Wertheimer, Birgit Pfitzmann, Cesar Berrospi Ramis, Michele Dolfi, Rafael Teixeira de Lima, Panos Vegenas, S. Karthik Mukkavilli, Peter Staar, Sanaz Vahidinia, Ryan McGranaghan, Armin Mehrabian, Tsendgar Lee

I grandi modelli linguistici (LLM) addestrati su corpora di dominio generale hanno mostrato risultati notevoli nelle attività di elaborazione del linguaggio naturale (NLP). Tuttavia, ricerche precedenti hanno dimostrato che i LLM addestrati utilizzando corpora focalizzati su domini specifici ottengono prestazioni migliori in compiti specializzati. Ispirati da questa intuizione fondamentale, abbiamo sviluppato INDUS, una suite completa di LLM progettati specificamente per i domini delle scienze della Terra, biologia, fisica, eliofisica, scienze planetarie e astrofisica, addestrati utilizzando corpora scientifici curati provenienti da diverse fonti di dati. La suite di modelli include: (1) un modello encoder addestrato utilizzando vocabolario e corpora specifici del dominio per affrontare compiti di comprensione del linguaggio naturale, (2) un modello di embedding testuale generale basato su apprendimento contrastivo, addestrato utilizzando un insieme diversificato di dataset provenienti da più fonti per affrontare compiti di recupero delle informazioni, e (3) versioni più piccole di questi modelli create utilizzando tecniche di distillazione della conoscenza per affrontare applicazioni con vincoli di latenza o risorse. Abbiamo inoltre creato tre nuovi dataset di benchmark scientifici, ovvero CLIMATE-CHANGE-NER (riconoscimento di entità), NASA-QA (QA estrattivo) e NASA-IR (IR), per accelerare la ricerca in questi campi multidisciplinari. Infine, dimostriamo che i nostri modelli superano sia gli encoder generici (RoBERTa) che gli encoder specifici per dominio esistenti (SciBERT) in questi nuovi compiti, così come nei compiti di benchmark esistenti nei domini di interesse.

Cache KV Condensato a Livelli per Inferenza Efficiente nei Modelli Linguistici di Grande Dimensione
Layer-Condensed KV Cache for Efficient Inference of Large Language Models

May 17

ByHaoyi Wu, Kewei Tu

L'elevato consumo di memoria è stato un importante collo di bottiglia per il dispiegamento di modelli linguistici di grandi dimensioni ad alta produttività in applicazioni reali. Oltre al gran numero di parametri, la cache chiave-valore (KV) per il meccanismo di attenzione nell'architettura transformer consuma una quantità significativa di memoria, specialmente quando il numero di strati è elevato nei modelli linguistici profondi. In questo articolo, proponiamo un metodo innovativo che calcola e memorizza nella cache le KV solo per un numero ridotto di strati, riducendo così significativamente il consumo di memoria e migliorando la produttività durante l'inferenza. I nostri esperimenti su modelli linguistici di grandi dimensioni dimostrano che il nostro metodo raggiunge una produttività fino a 26 volte superiore rispetto ai transformer standard e prestazioni competitive nella modellazione linguistica e nei task downstream. Inoltre, il nostro metodo è ortogonale alle tecniche esistenti per il risparmio di memoria nei transformer, quindi è semplice integrarlo con il nostro modello, ottenendo ulteriori miglioramenti nell'efficienza di inferenza. Il nostro codice è disponibile all'indirizzo https://github.com/whyNLP/LCKV.

Leggi Osservative di Scalabilità e Prevedibilità delle Prestazioni dei Modelli Linguistici
Observational Scaling Laws and the Predictability of Language Model Performance

May 17

ByYangjun Ruan, Chris J. Maddison, Tatsunori Hashimoto

Comprendere come le prestazioni dei modelli linguistici variano con la scala è fondamentale per lo sviluppo di benchmark e algoritmi. Le leggi di scala rappresentano un approccio per costruire questa comprensione, ma la necessità di addestrare modelli su molte scale diverse ne ha limitato l'uso. Proponiamo un approccio alternativo, di tipo osservativo, che aggira l'addestramento dei modelli e costruisce invece le leggi di scala a partire da circa 80 modelli disponibili pubblicamente. Costruire una singola legge di scala da più famiglie di modelli è impegnativo a causa delle grandi variazioni nelle loro efficienze computazionali di addestramento e nelle capacità. Tuttavia, dimostriamo che queste variazioni sono coerenti con una semplice legge di scala generalizzata, in cui le prestazioni del modello linguistico sono una funzione di uno spazio di capacità a bassa dimensionalità, e le famiglie di modelli variano solo nella loro efficienza nel convertire il calcolo di addestramento in capacità. Utilizzando questo approccio, dimostriamo la sorprendente prevedibilità di fenomeni di scala complessi: mostriamo che diversi fenomeni emergenti seguono un comportamento regolare e sigmoidale e sono prevedibili a partire da modelli piccoli; dimostriamo che le prestazioni di agenti come GPT-4 possono essere previste con precisione da benchmark non agentici più semplici; e mostriamo come prevedere l'impatto di interventi post-addestramento come il Chain-of-Thought e la Self-Consistency man mano che le capacità dei modelli linguistici continuano a migliorare.

LLM 3D ancorato con Token Referenziali
Grounded 3D-LLM with Referent Tokens

May 16

ByYilun Chen, Shuai Yang, Haifeng Huang, Tai Wang, Ruiyuan Lyu, Runsen Xu, Dahua Lin, Jiangmiao Pang

Gli studi precedenti sulla comprensione delle scene 3D hanno principalmente sviluppato modelli specializzati per compiti specifici o richiesto una messa a punto specifica per ciascun compito. In questo studio, proponiamo Grounded 3D-LLM, che esplora il potenziale dei grandi modelli multimodali 3D (3D LMMs) per consolidare vari compiti di visione 3D all'interno di un framework generativo unificato. Il modello utilizza token di riferimento della scena come frasi nominali speciali per riferirsi alle scene 3D, consentendo la gestione di sequenze che intervallano dati 3D e testuali. Offre un approccio naturale per tradurre i compiti di visione 3D in formati linguistici utilizzando modelli di istruzione specifici per ciascun compito. Per facilitare l'uso dei token di riferimento nella successiva modellazione linguistica, abbiamo curato ampi dataset linguistici ancorati che offrono una corrispondenza più precisa tra scena e testo a livello di frase, sfruttando etichette di oggetti esistenti. Successivamente, abbiamo introdotto il Contrastive LAnguage-Scene Pre-training (CLASP) per sfruttare efficacemente questi dati, integrando così la visione 3D con i modelli linguistici. La nostra valutazione completa copre compiti aperti come la descrizione densa e il question-answering 3D, insieme a compiti chiusi come il rilevamento di oggetti e l'ancoraggio linguistico. Gli esperimenti su più benchmark 3D rivelano le prestazioni leader e l'ampia applicabilità di Grounded 3D-LLM. Codice e dataset saranno rilasciati sulla pagina del progetto: https://groundedscenellm.github.io/grounded_3d-llm.github.io.

Campionatore dinamico di dati per il trasferimento di apprendimento cross-linguistico nei modelli linguistici di grandi dimensioni
Dynamic data sampler for cross-language transfer learning in large language models

May 17

ByYudong Li, Yuhao Feng, Wen Zhou, Zhe Zhao, Linlin Shen, Cheng Hou, Xianxu Hou

I Large Language Model (LLM) hanno attirato una significativa attenzione nel campo dell'elaborazione del linguaggio naturale (NLP) grazie alla loro vasta gamma di applicazioni. Tuttavia, l'addestramento di LLM per lingue diverse dall'inglese presenta sfide considerevoli, a causa della difficoltà nell'acquisire corpora su larga scala e delle risorse computazionali necessarie. In questo articolo, proponiamo ChatFlow, un LLM basato sul trasferimento interlinguistico, per affrontare queste sfide e addestrare modelli linguistici cinesi di grandi dimensioni in modo economicamente vantaggioso. Utilizziamo una combinazione di corpora cinesi, inglesi e paralleli per addestrare continuamente il modello LLaMA2, con l'obiettivo di allineare le rappresentazioni interlinguistiche e facilitare il trasferimento di conoscenze specificamente al modello linguistico cinese. Inoltre, impieghiamo un campionatore dinamico dei dati per far progredire gradualmente il modello dalla pre-addestramento non supervisionato al fine-tuning supervisionato. I risultati sperimentali dimostrano che il nostro approccio accelera la convergenza del modello e raggiunge prestazioni superiori. Valutiamo ChatFlow su benchmark popolari cinesi e inglesi, e i risultati indicano che supera altri modelli cinesi post-addestrati su LLaMA-2-7B.

INDUS: Modelli Linguistici Efficienti ed Efficaci per Applicazioni Scientifiche
INDUS: Effective and Efficient Language Models for Scientific Applications

May 17