HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

10 papers found

SFT Memorizza, RL Generalizza: Uno Studio Comparativo del Modello Fondamentale Post-Allenamento
SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

Jan 28

ByTianzhe Chu, Yuexiang Zhai, Jihan Yang, Shengbang Tong, Saining Xie, Dale Schuurmans, Quoc V. Le, Sergey Levine, Yi Ma

123

Il fine-tuning supervisionato (SFT) e il reinforcement learning (RL) sono tecniche ampiamente utilizzate come post-allenamento per i modelli di base. Tuttavia, il loro ruolo nel migliorare le capacità di generalizzazione del modello rimane poco chiaro. Questo articolo studia le differenze tra SFT e RL sulla generalizzazione e sulla memorizzazione, concentrandosi su varianti di regole basate su testo e varianti visive. Introduciamo GeneralPoints, un gioco di carte per il ragionamento aritmetico, e adottiamo V-IRL, un ambiente di navigazione del mondo reale, per valutare come i modelli addestrati con SFT e RL generalizzino a varianti non viste sia nei domini testuali che visivi. Mostreremo che RL, specialmente quando addestrato con un reward basato sull'outcome, generalizza su entrambe le varianti basate su regole testuali e visive. Al contrario, SFT tende a memorizzare i dati di addestramento e fatica a generalizzare scenari fuori distribuzione. Un'analisi ulteriore rivela che RL migliora le capacità di riconoscimento visivo sottostanti del modello, contribuendo alla sua migliorata generalizzazione nel dominio visivo. Nonostante la maggiore generalizzazione di RL, dimostriamo che SFT rimane essenziale per un addestramento RL efficace; SFT stabilizza il formato di output del modello, consentendo al successivo RL di ottenere i suoi miglioramenti prestazionali. Queste scoperte dimostrano la capacità di RL di acquisire conoscenze generalizzabili in compiti complessi e multimodali.

Ottimizzazione dell'addestramento di modelli di linguaggio di grandi dimensioni utilizzando la quantizzazione FP4.
Optimizing Large Language Model Training Using FP4 Quantization

Jan 28

ByRuizhe Wang, Yeyun Gong, Xiao Liu, Guoshuai Zhao, Ziyue Yang, Baining Guo, Zhengjun Zha, Peng Cheng

Le crescenti esigenze computazionali per addestrare grandi modelli linguistici (LLM) richiedono metodi più efficienti. L'addestramento quantizzato rappresenta una soluzione promettente consentendo operazioni aritmetiche a basso bit per ridurre questi costi. Sebbene la precisione FP8 abbia dimostrato la fattibilità, sfruttare l'FP4 rimane una sfida a causa di significativi errori di quantizzazione e limitata capacità rappresentativa. Questo lavoro introduce il primo framework di addestramento FP4 per LLM, affrontando tali sfide con due innovazioni chiave: un estimatore di quantizzazione differenziabile per precisi aggiornamenti dei pesi e una strategia di bloccaggio e compensazione degli outlier per prevenire il collasso delle attivazioni. Per garantire la stabilità, il framework integra uno schema di addestramento a precisione mista e una quantizzazione vettoriale. I risultati sperimentali dimostrano che il nostro framework FP4 raggiunge un'accuratezza paragonabile a BF16 e FP8, con una degradazione minima, scalando efficacemente fino a LLM da 13 miliardi di parametri addestrati su fino a 100 miliardi di token. Con l'emergere di hardware di prossima generazione che supporta FP4, il nostro framework getta le basi per un efficiente addestramento ad ultra-bassa precisione.

Transformer Eccessivamente Tokenizzato: In Generale, Vale la Pena Ridimensionare il Vocabolario
Over-Tokenized Transformer: Vocabulary is Generally Worth Scaling

Jan 28

ByHongzhi Huang, Defa Zhu, Banggu Wu, Yutao Zeng, Ya Wang, Qiyang Min, Xun Zhou

La tokenizzazione è un componente fondamentale dei grandi modelli linguistici (LLM), tuttavia il suo impatto sulla scalabilità e sulle prestazioni del modello non è completamente esplorato. In questo articolo, presentiamo i Transformers sovra-tokenizzati, un nuovo framework che separa i vocabolari di input e output per migliorare le prestazioni del language modeling. In particolare, il nostro approccio scala i vocabolari di input per sfruttare i token multi-grammi. Attraverso estesi esperimenti, scopriamo una relazione log-lineare tra le dimensioni del vocabolario di input e la perdita durante l'addestramento, dimostrando che vocabolari di input più grandi migliorano costantemente le prestazioni del modello, indipendentemente dalle dimensioni del modello. Utilizzando un ampio vocabolario di input, otteniamo prestazioni paragonabili a baselines di dimensioni doppie senza costi aggiuntivi. Le nostre scoperte evidenziano l'importanza della tokenizzazione nelle leggi di scalabilità e forniscono spunti pratici per la progettazione del tokenizer, aprendo la strada a LLM più efficienti e potenti.

DiffSplat: Riutilizzo dei modelli di diffusione delle immagini per la generazione scalabile di Gaussian Splat.
DiffSplat: Repurposing Image Diffusion Models for Scalable Gaussian Splat Generation

Jan 28

ByChenguo Lin, Panwang Pan, Bangbang Yang, Zeming Li, Yadong Mu

I recenti progressi nella generazione di contenuti 3D da testo o da un'immagine singola faticano con dataset 3D di alta qualità limitati e con l'incoerenza dalla generazione multi-vista 2D. Presentiamo DiffSplat, un nuovo framework generativo 3D che genera nativamente splat gaussiani 3D addomesticando modelli di diffusione testo-immagine su larga scala. Si differenzia dai modelli generativi 3D precedenti utilizzando efficacemente prior 2D su scala web mantenendo al contempo la coerenza 3D in un modello unificato. Per avviare l'addestramento, viene proposto un modello di ricostruzione leggero per produrre istantaneamente griglie di splat gaussiani multi-vista per la cura scalabile del dataset. In congiunzione con la perdita di diffusione regolare su queste griglie, viene introdotta una perdita di rendering 3D per facilitare la coerenza 3D tra viste arbitrarie. La compatibilità con i modelli di diffusione di immagini consente adattamenti fluidi di numerose tecniche per la generazione di immagini al mondo 3D. Estesi esperimenti rivelano la superiorità di DiffSplat nelle attività di generazione condizionate da testo e immagine e nelle applicazioni successive. Approfonditi studi di ablazione convalidano l'efficacia di ciascuna scelta progettuale critica e forniscono approfondimenti sul meccanismo sottostante.

Problemi aperti nell'interpretabilità meccanicistica
Open Problems in Mechanistic Interpretability

Jan 27

ByLee Sharkey, Bilal Chughtai, Joshua Batson, Jack Lindsey, Jeff Wu, Lucius Bushnaq, Nicholas Goldowsky-Dill, Stefan Heimersheim, Alejandro Ortega, Joseph Bloom, Stella Biderman, Adria Garriga-Alonso, Arthur Conmy, Neel Nanda, Jessica Rumbelow, Martin Wattenberg, Nandi Schoots, Joseph Miller, Eric J. Michaud, Stephen Casper, Max Tegmark, William Saunders, David Bau, Eric Todd, Atticus Geiger, Mor Geva, Jesse Hoogland, Daniel Murfet, Tom McGrath

L'interpretabilità meccanicistica mira a comprendere i meccanismi computazionali alla base delle capacità delle reti neurali al fine di raggiungere obiettivi scientifici ed ingegneristici concreti. I progressi in questo campo promettono quindi di fornire una maggiore sicurezza sul comportamento dei sistemi di intelligenza artificiale e di gettare luce su interessanti questioni scientifiche sulla natura dell'intelligenza. Nonostante i recenti progressi verso tali obiettivi, ci sono molti problemi aperti nel settore che richiedono soluzioni prima che molti benefici scientifici e pratici possano essere realizzati: i nostri metodi necessitano di miglioramenti concettuali e pratici per rivelare approfondimenti più profondi; dobbiamo capire come applicare al meglio i nostri metodi nel perseguimento di obiettivi specifici; e il settore deve affrontare sfide socio-tecniche che influenzano e sono influenzate dal nostro lavoro. Questa recensione orientata al futuro discute il fronte attuale dell'interpretabilità meccanicistica e i problemi aperti dai quali il settore potrebbe trarre beneficio prioritariamente.

Adattatori a basso rango incontrano la Ricerca di Architetture Neurali per la Compressione di LLM
Low-Rank Adapters Meet Neural Architecture Search for LLM Compression

Jan 23

ByJ. Pablo Muñoz, Jinjie Yuan, Nilesh Jain

L'ampia diffusione dei Grandi Modelli Linguistici (LLM) ha posto significativi sfasamenti riguardo alle risorse computazionali necessarie per il fine-tuning e il rilascio. Recenti progressi negli adattatori a basso rango hanno dimostrato la loro efficacia nel fine-tuning efficiente dei parametri (PEFT) di questi modelli. Questo articolo retrospettivo discute in modo esaustivo approcci innovativi che sinergizzano rappresentazioni a basso rango con tecniche di Ricerca dell'Architettura Neurale (NAS), in particolare sovra-reti con condivisione di pesi. Soluzioni robuste per la compressione e il fine-tuning di grandi modelli pre-addestrati sono sviluppate integrando queste metodologie. La nostra analisi evidenzia il potenziale di queste strategie combinate per democratizzare l'uso dei LLM, rendendoli più accessibili per il rilascio in ambienti con risorse limitate. I modelli risultanti presentano dimensioni di memoria ridotte e tempi di inferenza più veloci, aprendo la strada a un'applicazione più pratica e scalabile dei LLM. Modelli e codice sono disponibili su https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning.

TAID: Interpolazione Adattiva Temporale per il Trasferimento Efficiente di Conoscenza nei Modelli Linguistici
TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models

Jan 28

ByMakoto Shing, Kou Misaki, Han Bao, Sho Yokoi, Takuya Akiba

I modelli di linguaggio causali hanno dimostrato capacità notevoli, ma le loro dimensioni pongono significativi ostacoli per l'implementazione in ambienti con risorse limitate. La distillazione della conoscenza, una tecnica ampiamente utilizzata per trasferire conoscenze da un grande modello insegnante a un modello studente più piccolo, rappresenta un approccio promettente per la compressione del modello. Un problema significativo rimasto riguarda le principali differenze tra i modelli insegnante e studente, ovvero il notevole divario di capacità, la media dei modi e il collasso dei modi, che pongono ostacoli durante la distillazione. Per affrontare tali questioni, introduciamo la Distillazione Interpolata Temporalmente Adattiva (TAID), un nuovo approccio alla distillazione della conoscenza che interpola dinamicamente le distribuzioni dello studente e dell'insegnante attraverso una distribuzione intermedia adattiva, spostandosi gradualmente dalla distribuzione iniziale dello studente verso quella dell'insegnante. Forniamo un'analisi teorica che dimostra la capacità di TAID di prevenire il collasso dei modi e mostriamo empiricamente la sua efficacia nel gestire il divario di capacità bilanciando la media dei modi e il collasso dei modi. I nostri esperimenti esaustivi dimostrano le prestazioni superiori di TAID su varie dimensioni e architetture di modelli sia nei casi di messa a punto dell'istruzione che di pre-addestramento. Inoltre, mostriamo l'impatto pratico di TAID sviluppando due modelli fondamentali compatti all'avanguardia: TAID-LLM-1.5B per compiti linguistici e TAID-VLM-2B per compiti visione-linguaggio. Questi risultati dimostrano l'efficacia di TAID nella creazione di modelli efficienti ad alte prestazioni, promuovendo lo sviluppo di tecnologie AI più accessibili.

IndicMMLU-Pro: Valutazione delle prestazioni dei grandi modelli linguistici indicativi nella comprensione del linguaggio multi-task
IndicMMLU-Pro: Benchmarking Indic Large Language Models on Multi-Task Language Understanding

Jan 27

BySankalp KJ, Ashutosh Kumar, Laxmaan Balaji, Nikunj Kotecha, Vinija Jain, Aman Chadha, Sreyoshi Bhaduri

Conosciute da oltre 1,5 miliardi di persone nel subcontinente indiano, le lingue indiane presentano sfide e opportunità uniche per la ricerca sul trattamento automatico del linguaggio naturale (NLP) a causa della loro ricca eredità culturale, diversità linguistica e strutture complesse. IndicMMLU-Pro è un benchmark completo progettato per valutare i Grandi Modelli Linguistici (LLM) attraverso le lingue indiane, basandosi sul framework MMLU Pro (Massive Multitask Language Understanding). Coprendo lingue principali come l'Hindi, il Bengalese, il Gujarati, il Marathi, il Kannada, il Punjabi, il Tamil, il Telugu e l'Urdu, il nostro benchmark affronta le sfide e opportunità uniche presentate dalla diversità linguistica del subcontinente indiano. Questo benchmark comprende una vasta gamma di compiti nella comprensione del linguaggio, nel ragionamento e nella generazione, accuratamente progettati per catturare le complessità delle lingue indiane. IndicMMLU-Pro fornisce un framework di valutazione standardizzato per spingere i confini della ricerca nell'IA delle lingue indiane, facilitando lo sviluppo di modelli più accurati, efficienti e culturalmente sensibili. Questo articolo delinea i principi di progettazione dei benchmark, la tassonomia dei compiti e la metodologia di raccolta dati, e presenta i risultati di base dei modelli multilingue all'avanguardia.

Storie Morali: Un Dataset Francese per Valutare l'Allineamento Morale
Histoires Morales: A French Dataset for Assessing Moral Alignment

Jan 28

ByThibaud Leteno, Irina Proskurina, Antoine Gourru, Julien Velcin, Charlotte Laclau, Guillaume Metzler, Christophe Gravier

Allineare i modelli linguistici ai valori umani è cruciale, specialmente mentre diventano sempre più integrati nella vita quotidiana. Sebbene i modelli siano spesso adattati alle preferenze degli utenti, è altrettanto importante garantire che siano in linea con le norme morali e i comportamenti nelle situazioni sociali reali. Nonostante i significativi progressi nelle lingue come l'inglese e il cinese, il francese ha ricevuto scarsa attenzione in questo ambito, lasciando una lacuna nella comprensione di come i LLM gestiscano il ragionamento morale in questa lingua. Per affrontare questa lacuna, presentiamo Histoires Morales, un dataset francese derivato da Storie Morali, creato attraverso la traduzione e successivamente perfezionato con l'assistenza di madrelingua per garantire l'accuratezza grammaticale e l'adattamento al contesto culturale francese. Ci affidiamo anche alle annotazioni dei valori morali all'interno del dataset per garantirne l'allineamento con le norme francesi. Histoires Morales copre una vasta gamma di situazioni sociali, incluse le differenze nelle pratiche di mance, le espressioni di onestà nelle relazioni e le responsabilità verso gli animali. Per promuovere la ricerca futura, conduciamo anche esperimenti preliminari sull'allineamento dei modelli multilingue sui dati in francese e in inglese e sulla robustezza dell'allineamento. Riscontriamo che sebbene i LLM siano generalmente allineati con le norme morali umane per impostazione predefinita, possono essere facilmente influenzati con l'ottimizzazione delle preferenze dell'utente sia per i dati morali che immorali.

DeepFlow: Servizio di modelli linguistici di grandi dimensioni senza server su larga scala
DeepFlow: Serverless Large Language Model Serving at Scale

Jan 24

ByJunhao Hu, Jiang Xu, Zhixia Liu, Yulong He, Yuetao Chen, Hao Xu, Jiang Liu, Baoquan Zhang, Shining Wan, Gengyuan Dan, Zhiyu Dong, Zhihao Ren, Jie Meng, Chao He, Changhong Liu, Tao Xie, Dayun Lin, Qin Zhang, Yue Yu, Hao Feng, Xusheng Chen, Yizhou Shan

Questo articolo introduce DeepFlow, una piattaforma AI scalabile e serverless progettata per servire in modo efficiente modelli linguistici di grandi dimensioni (LLM) su larga scala negli ambienti cloud. DeepFlow affronta sfide chiave come l'allocazione delle risorse, l'efficienza del servizio e le latenze di avvio a freddo attraverso quattro componenti principali di progettazione. In primo luogo, utilizza un'astrazione serverless semplice chiamata modello richiesta-lavoro-task, che aiuta a gestire carichi di lavoro AI tra attività post-training e servizio del modello. In secondo luogo, costruisce un motore di servizio in-house chiamato FlowServe utilizzando un design ispirato ai microkernel, esecuzione incentrata su NPU e parallelismo basato su SPMD per ottimizzare il servizio LLM. Il sistema include anche politiche di pianificazione innovative adattate sia per configurazioni disaggregate PD che collocate PD. Con ottimizzazioni come pod pre-avviati, pre-caricamento DRAM e NPU-fork, DeepFlow può scalare fino a 64 istanze in pochi secondi. DeepFlow è stato in produzione per oltre un anno, operando su un ampio cluster Ascend NPU e fornendo API standard del settore per il raffinamento, il servizio dell'agente e il servizio del modello ai nostri clienti.

TAID: Interpolazione Adattiva Temporale per il Trasferimento Efficiente di Conoscenza nei Modelli Linguistici
TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models

Jan 28

ByMakoto Shing, Kou Misaki, Han Bao, Sho Yokoi, Takuya Akiba