HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

10 papers found

GaLore: Addestramento Efficiente in Memoria di LLM tramite Proiezione a Basso Rango del Gradiente
GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection

Mar 6

ByJiawei Zhao, Zhenyu Zhang, Beidi Chen, Zhangyang Wang, Anima Anandkumar, Yuandong Tian

189

L'addestramento di Large Language Models (LLM) presenta sfide significative in termini di memoria, principalmente a causa delle dimensioni crescenti dei pesi e degli stati dell'ottimizzatore. Approcci comuni per la riduzione della memoria, come l'adattamento a basso rango (LoRA), aggiungono una matrice a basso rango addestrabile ai pesi pre-addestrati congelati in ogni livello, riducendo i parametri addestrabili e gli stati dell'ottimizzatore. Tuttavia, tali approcci generalmente ottengono prestazioni inferiori rispetto all'addestramento con pesi a rango completo sia nelle fasi di pre-addestramento che di fine-tuning, poiché limitano la ricerca dei parametri a un sottospazio a basso rango e alterano le dinamiche di addestramento, e potrebbero inoltre richiedere un avvio a rango completo. In questo lavoro, proponiamo Gradient Low-Rank Projection (GaLore), una strategia di addestramento che consente l'apprendimento a parametri completi ma è più efficiente in termini di memoria rispetto ai comuni metodi di adattamento a basso rango come LoRA. Il nostro approccio riduce l'uso della memoria fino al 65,5% negli stati dell'ottimizzatore, mantenendo sia l'efficienza che le prestazioni per il pre-addestramento sulle architetture LLaMA 1B e 7B con il dataset C4 fino a 19,7 miliardi di token, e per il fine-tuning di RoBERTa sui task GLUE. La nostra versione a 8 bit di GaLore riduce ulteriormente la memoria dell'ottimizzatore fino all'82,5% e la memoria totale di addestramento del 63,3%, rispetto a una baseline BF16. In particolare, dimostriamo, per la prima volta, la fattibilità del pre-addestramento di un modello da 7B su GPU consumer con 24 GB di memoria (ad esempio, NVIDIA RTX 4090) senza l'uso di strategie di parallelismo del modello, checkpointing o offloading.

SaulLM-7B: Un modello linguistico all'avanguardia per il diritto
SaulLM-7B: A pioneering Large Language Model for Law

Mar 6

ByPierre Colombo, Telmo Pessoa Pires, Malik Boudiaf, Dominic Culver, Rui Melo, Caio Corro, Andre F. T. Martins, Fabrizio Esposito, Vera Lúcia Raposo, Sofia Morgado, Michael Desa

In questo articolo, presentiamo SaulLM-7B, un modello linguistico di grandi dimensioni (LLM) specificamente progettato per il dominio legale. Con 7 miliardi di parametri, SaulLM-7B è il primo LLM sviluppato esplicitamente per la comprensione e la generazione di testi legali. Basandosi sull'architettura Mistral 7B, SaulLM-7B è stato addestrato su un corpus legale in inglese composto da oltre 30 miliardi di token. SaulLM-7B dimostra una competenza all'avanguardia nella comprensione e nell'elaborazione di documenti legali. Inoltre, presentiamo un nuovo metodo di fine-tuning basato su istruzioni che sfrutta dataset legali per migliorare ulteriormente le prestazioni di SaulLM-7B in compiti legali. SaulLM-7B è rilasciato sotto la licenza CC-BY-SA-4.0.

ShortGPT: I livelli nei modelli linguistici di grandi dimensioni sono più ridondanti di quanto ci si aspetti
ShortGPT: Layers in Large Language Models are More Redundant Than You Expect

Mar 6

ByXin Men, Mingyu Xu, Qingyu Zhang, Bingning Wang, Hongyu Lin, Yaojie Lu, Xianpei Han, Weipeng Chen

Man mano che i Large Language Model (LLM) continuano a migliorare le loro prestazioni, le loro dimensioni sono aumentate in modo significativo, con gli attuali LLM che contengono miliardi o addirittura trilioni di parametri. Tuttavia, in questo studio, abbiamo scoperto che molti strati dei LLM presentano un'elevata similarità e che alcuni strati svolgono un ruolo trascurabile nella funzionalità della rete. Sulla base di questa osservazione, definiamo una metrica chiamata Block Influence (BI) per valutare l'importanza di ciascuno strato nei LLM. Proponiamo quindi un approccio semplice di pruning: la rimozione degli strati, in cui eliminiamo direttamente gli strati ridondanti nei LLM in base ai loro punteggi BI. Gli esperimenti dimostrano che il nostro metodo, che chiamiamo ShortGPT, supera significativamente i precedenti metodi all'avanguardia (SOTA) nel pruning dei modelli. Inoltre, ShortGPT è ortogonale a metodi simili alla quantizzazione, consentendo un'ulteriore riduzione dei parametri e del calcolo. La capacità di ottenere risultati migliori attraverso la semplice rimozione degli strati, rispetto a tecniche di pruning più complesse, suggerisce un elevato grado di ridondanza nell'architettura del modello.

PixArt-Σ: Addestramento da Debole a Forte del Trasformatore di Diffusione per la Generazione di Immagini 4K da Testo
PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation

Mar 7

ByJunsong Chen, Chongjian Ge, Enze Xie, Yue Wu, Lewei Yao, Xiaozhe Ren, Zhongdao Wang, Ping Luo, Huchuan Lu, Zhenguo Li

In questo articolo, presentiamo PixArt-Σ, un modello di Diffusion Transformer (DiT) in grado di generare direttamente immagini in risoluzione 4K. PixArt-Σ rappresenta un significativo progresso rispetto al suo predecessore, PixArt-α, offrendo immagini di qualità notevolmente superiore e un migliore allineamento con i prompt testuali. Una caratteristica chiave di PixArt-Σ è la sua efficienza di addestramento. Sfruttando il pre-addestramento di base di PixArt-α, evolve da una baseline "più debole" a un modello "più forte" attraverso l'incorporazione di dati di qualità superiore, un processo che definiamo "addestramento da debole a forte". I progressi di PixArt-Σ sono duplici: (1) Dati di Addestramento di Alta Qualità: PixArt-Σ incorpora dati immagine di qualità superiore, abbinati a didascalie più precise e dettagliate. (2) Compressione Efficiente dei Token: proponiamo un nuovo modulo di attenzione all'interno del framework DiT che comprime sia le chiavi che i valori, migliorando significativamente l'efficienza e facilitando la generazione di immagini in ultra-alta risoluzione. Grazie a questi miglioramenti, PixArt-Σ raggiunge una qualità dell'immagine superiore e una migliore aderenza ai prompt dell'utente con una dimensione del modello significativamente più piccola (0,6 miliardi di parametri) rispetto ai modelli di diffusione testo-immagine esistenti, come SDXL (2,6 miliardi di parametri) e SD Cascade (5,1 miliardi di parametri). Inoltre, la capacità di PixArt-Σ di generare immagini 4K supporta la creazione di poster e sfondi ad alta risoluzione, rafforzando efficientemente la produzione di contenuti visivi di alta qualità in settori come il cinema e i videogiochi.

Imparare a Decodificare in Modo Collaborativo con Modelli Linguistici Multipli
Learning to Decode Collaboratively with Multiple Language Models

Mar 6

ByShannon Zejiang Shen, Hunter Lang, Bailin Wang, Yoon Kim, David Sontag

Proponiamo un metodo per insegnare a più modelli linguistici di grandi dimensioni (LLM) a collaborare intercalando le loro generazioni a livello di token. Modelliamo la decisione su quale LLM generi il token successivo come una variabile latente. Ottimizzando la verosimiglianza marginale di un insieme di addestramento sotto il nostro modello a variabile latente, il LLM di base impara automaticamente quando generare da sé e quando chiamare uno dei modelli linguistici "assistenti" per generare, tutto senza supervisione diretta. La collaborazione a livello di token durante la decodifica consente una fusione delle competenze di ciascun modello in modo adattato al compito specifico. La nostra decodifica collaborativa è particolarmente utile in contesti cross-dominio in cui un LLM generalista impara a invocare modelli esperti di dominio. Su compiti di esecuzione di istruzioni, QA specifico di dominio e ragionamento, dimostriamo che le prestazioni del sistema congiunto superano quelle dei singoli modelli. Attraverso un'analisi qualitativa delle decisioni latenti apprese, mostriamo che i modelli addestrati con il nostro metodo presentano diversi interessanti schemi di collaborazione, ad esempio il riempimento di template. Il nostro codice è disponibile all'indirizzo https://github.com/clinicalml/co-llm.

Miglioramento del Pre-addestramento Visione-Linguaggio con Supervisioni Ricche
Enhancing Vision-Language Pre-training with Rich Supervisions

Mar 5

ByYuan Gao, Kunyu Shi, Pengkai Zhu, Edouard Belval, Oren Nuriel, Srikar Appalaraju, Shabnam Ghadar, Vijay Mahadevan, Zhuowen Tu, Stefano Soatto

Proponiamo il pre-addestramento Fortemente Supervisionato con Screenshot (S4) - un nuovo paradigma di pre-addestramento per modelli visione-linguaggio che utilizza dati provenienti dal rendering su larga scala di screenshot web. L'uso di screenshot web sblocca un tesoro di indizi visivi e testuali che non sono presenti nelle coppie immagine-testo. In S4, sfruttiamo la gerarchia intrinsecamente ad albero degli elementi HTML e la localizzazione spaziale per progettare con cura 10 task di pre-addestramento con dati annotati su larga scala. Questi task assomigliano a task downstream in diversi domini e le annotazioni sono economiche da ottenere. Dimostriamo che, rispetto agli obiettivi attuali di pre-addestramento con screenshot, il nostro metodo innovativo di pre-addestramento migliora significativamente le prestazioni del modello immagine-testo in nove task downstream vari e popolari - con miglioramenti fino al 76,1% nel Rilevamento di Tabelle e almeno l'1% nella Didascalia di Widget.

Smetti di Fare Regressione: Addestramento di Funzioni di Valore tramite Classificazione per il Deep RL Scalabile
Stop Regressing: Training Value Functions via Classification for Scalable Deep RL

Mar 6

ByJesse Farebrother, Jordi Orbay, Quan Vuong, Adrien Ali Taïga, Yevgen Chebotar, Ted Xiao, Alex Irpan, Sergey Levine, Pablo Samuel Castro, Aleksandra Faust, Aviral Kumar, Rishabh Agarwal

Le funzioni di valore sono un componente centrale dell'apprendimento per rinforzo profondo (RL). Queste funzioni, parametrizzate da reti neurali, vengono addestrate utilizzando un obiettivo di regressione a errore quadratico medio per corrispondere a valori target ottenuti tramite bootstrap. Tuttavia, scalare metodi RL basati su valore che utilizzano la regressione per reti di grandi dimensioni, come i Transformer ad alta capacità, si è rivelato impegnativo. Questa difficoltà è in netto contrasto con l'apprendimento supervisionato: sfruttando una perdita di classificazione a entropia incrociata, i metodi supervisionati si sono scalati in modo affidabile a reti di dimensioni massicce. Osservando questa discrepanza, in questo articolo, indaghiamo se la scalabilità del RL profondo possa essere migliorata semplicemente utilizzando la classificazione al posto della regressione per l'addestramento delle funzioni di valore. Dimostriamo che le funzioni di valore addestrate con entropia incrociata categorica migliorano significativamente le prestazioni e la scalabilità in una varietà di domini. Questi includono: RL a singolo compito sui giochi Atari 2600 con SoftMoEs, RL multi-compito su Atari con ResNet su larga scala, manipolazione robotica con Q-transformers, giocare a scacchi senza ricerca, e un compito di Wordle con agenti linguistici basati su Transformer ad alta capacità, raggiungendo risultati all'avanguardia in questi domini. Attraverso un'analisi attenta, mostriamo che i vantaggi dell'entropia incrociata categorica derivano principalmente dalla sua capacità di mitigare problemi intrinseci al RL basato su valore, come target rumorosi e non stazionarietà. In sintesi, sosteniamo che un semplice passaggio all'addestramento delle funzioni di valore con entropia incrociata categorica può portare a sostanziali miglioramenti nella scalabilità del RL profondo a costi minimi o nulli.

Caduceus: Modellazione Bi-Direzionale Equivariante di Sequenze di DNA a Lungo Raggio
Caduceus: Bi-Directional Equivariant Long-Range DNA Sequence Modeling

Mar 5

ByYair Schiff, Chia-Hsiang Kao, Aaron Gokaslan, Tri Dao, Albert Gu, Volodymyr Kuleshov

La modellazione su larga scala di sequenze ha stimolato rapidi progressi che ora si estendono alla biologia e alla genomica. Tuttavia, la modellazione di sequenze genomiche introduce sfide come la necessità di modellare interazioni a lungo raggio tra token, gli effetti delle regioni a monte e a valle del genoma e la complementarità inversa (RC) del DNA. Qui proponiamo un'architettura motivata da queste sfide che si basa sul blocco Mamba a lungo raggio, estendendolo a un componente BiMamba che supporta la bidirezionalità, e a un blocco MambaDNA che aggiunge inoltre l'equivarianza RC. Utilizziamo MambaDNA come base per Caduceus, la prima famiglia di modelli linguistici per il DNA a lungo raggio, bidirezionali e RC-equivarianti, e introduciamo strategie di pre-addestramento e fine-tuning che portano ai modelli di fondazione Caduceus per il DNA. Caduceus supera i precedenti modelli a lungo raggio su benchmark downstream; in un compito impegnativo di previsione degli effetti di varianti a lungo raggio, Caduceus supera le prestazioni di modelli 10 volte più grandi che non sfruttano la bidirezionalità o l'equivarianza.

Politica di Diffusione 3D
3D Diffusion Policy

Mar 6

ByYanjie Ze, Gu Zhang, Kangning Zhang, Chenyuan Hu, Muhan Wang, Huazhe Xu

L'apprendimento per imitazione offre un modo efficiente per insegnare ai robot abilità complesse; tuttavia, apprendere abilità complesse in modo robusto e generalizzabile richiede solitamente grandi quantità di dimostrazioni umane. Per affrontare questa problematica, presentiamo 3D Diffusion Policy (DP3), un nuovo approccio di apprendimento per imitazione visiva che incorpora la potenza delle rappresentazioni visive 3D nelle politiche di diffusione, una classe di modelli generativi di azioni condizionali. Il design centrale di DP3 è l'utilizzo di una rappresentazione visiva 3D compatta, estratta da nuvole di punti sparse con un codificatore di punti efficiente. Nei nostri esperimenti che coinvolgono 72 task di simulazione, DP3 gestisce con successo la maggior parte dei task con solo 10 dimostrazioni e supera i metodi di riferimento con un miglioramento relativo del 55,3%. In 4 task con robot reali, DP3 dimostra un controllo preciso con un tasso di successo elevato dell'85%, dato solo 40 dimostrazioni per ciascun task, e mostra eccellenti capacità di generalizzazione in diversi aspetti, tra cui spazio, punto di vista, aspetto e istanza. Interessantemente, negli esperimenti con robot reali, DP3 raramente viola i requisiti di sicurezza, a differenza dei metodi di riferimento che lo fanno frequentemente, rendendo necessario l'intervento umano. La nostra valutazione estesa evidenzia l'importanza cruciale delle rappresentazioni 3D nell'apprendimento robotico nel mondo reale. Video, codice e dati sono disponibili su https://3d-diffusion-policy.github.io.

Backtracing: Recuperare la Causa della Query
Backtracing: Retrieving the Cause of the Query

Mar 6

ByRose E. Wang, Pawan Wirawarn, Omar Khattab, Noah Goodman, Dorottya Demszky

Molte piattaforme di contenuti online consentono agli utenti di porre domande per integrare la loro comprensione (ad esempio, delle lezioni). Mentre i sistemi di information retrieval (IR) possono fornire risposte a tali query degli utenti, non assistono direttamente i creatori di contenuti -- come i docenti che desiderano migliorare i loro materiali -- nell'identificare i segmenti che hanno _causato_ le domande degli utenti. Introduciamo il compito del backtracing, in cui i sistemi recuperano il segmento di testo che ha più probabilmente causato una query dell'utente. Formalizziamo tre domini reali per i quali il backtracing è importante per migliorare la consegna dei contenuti e la comunicazione: comprendere la causa di (a) confusione degli studenti nel dominio delle Lezioni, (b) curiosità dei lettori nel dominio degli Articoli di Notizie e (c) emozioni degli utenti nel dominio delle Conversazioni. Valutiamo le prestazioni zero-shot di metodi popolari di information retrieval e di modellazione del linguaggio, inclusi metodi bi-encoder, di riordinamento e basati sulla verosimiglianza, nonché ChatGPT. Mentre i tradizionali sistemi IR recuperano informazioni semanticamente rilevanti (ad esempio, dettagli sulle "matrici di proiezione" per una query "proiettare più volte porta ancora allo stesso punto?"), spesso mancano il contesto causalmente rilevante (ad esempio, il docente afferma "proiettare due volte mi dà lo stesso risultato di una proiezione"). I nostri risultati mostrano che c'è spazio per miglioramenti nel backtracing e che sono necessari nuovi approcci di retrieval. Speriamo che il nostro benchmark contribuisca a migliorare i futuri sistemi di retrieval per il backtracing, dando vita a sistemi che affinano la generazione di contenuti e identificano i trigger linguistici che influenzano le query degli utenti. Il nostro codice e i dati sono open-source: https://github.com/rosewang2008/backtracing.

Smetti di Fare Regressione: Addestramento di Funzioni di Valore tramite Classificazione per il Deep RL Scalabile
Stop Regressing: Training Value Functions via Classification for Scalable Deep RL

Mar 6

ByJesse Farebrother, Jordi Orbay, Quan Vuong, Adrien Ali Taïga, Yevgen Chebotar, Ted Xiao, Alex Irpan, Sergey Levine, Pablo Samuel Castro, Aleksandra Faust, Aviral Kumar, Rishabh Agarwal