HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

10 papers found

CodeFusion: Un Modello di Diffusione Pre-addestrato per la Generazione di Codice
CodeFusion: A Pre-trained Diffusion Model for Code Generation

Oct 26

ByMukul Singh, José Cambronero, Sumit Gulwani, Vu Le, Carina Negreanu, Gust Verbruggen

Immagina uno sviluppatore che può modificare solo l'ultima riga del proprio codice: quante volte dovrebbe ricominciare a scrivere una funzione da zero prima che sia corretta? I modelli auto-regressivi per la generazione di codice a partire da linguaggio naturale presentano una limitazione simile: non consentono facilmente di riconsiderare i token generati in precedenza. Introduciamo CodeFusion, un modello pre-addestrato di generazione di codice basato su diffusione che supera questa limitazione denoizzando iterativamente un programma completo condizionato dal linguaggio naturale codificato. Valutiamo CodeFusion nel compito di generazione di codice a partire da linguaggio naturale per Bash, Python e regole di formattazione condizionale (CF) di Microsoft Excel. Gli esperimenti dimostrano che CodeFusion (75M parametri) raggiunge prestazioni paragonabili ai sistemi auto-regressivi all'avanguardia (350M-175B parametri) in termini di accuratezza top-1 e li supera nelle accuratezze top-3 e top-5 grazie a un migliore equilibrio tra diversità e qualità.

FP8-LM: Addestramento di Modelli Linguistici di Grande Dimensione in FP8
FP8-LM: Training FP8 Large Language Models

Oct 27

ByHouwen Peng, Kan Wu, Yixuan Wei, Guoshuai Zhao, Yuxiang Yang, Ze Liu, Yifan Xiong, Ziyue Yang, Bolin Ni, Jingcheng Hu, Ruihang Li, Miaosen Zhang, Chen Li, Jia Ning, Ruizhe Wang, Zheng Zhang, Shuguang Liu, Joe Chau, Han Hu, Peng Cheng

In questo articolo, esploriamo i formati di dati a basso bit FP8 per l'addestramento efficiente di modelli linguistici di grandi dimensioni (LLM). La nostra intuizione chiave è che la maggior parte delle variabili, come i gradienti e gli stati dell'ottimizzatore, nell'addestramento degli LLM possono utilizzare formati di dati a bassa precisione senza compromettere l'accuratezza del modello e senza richiedere modifiche agli iperparametri. Nello specifico, proponiamo un nuovo framework automatico a precisione mista FP8 per l'addestramento degli LLM. Questo framework offre tre livelli di utilizzo dell'FP8 per semplificare l'addestramento a precisione mista e parallelo distribuito per gli LLM. Incorpora gradualmente gradienti a 8 bit, stati dell'ottimizzatore e apprendimento distribuito in modo incrementale. I risultati degli esperimenti mostrano che, durante l'addestramento del modello GPT-175B sulla piattaforma GPU H100, il nostro framework di addestramento a precisione mista FP8 non solo ha ottenuto una riduzione significativa del 42% nell'uso effettivo della memoria, ma ha anche funzionato il 64% più velocemente rispetto al framework BF16 ampiamente adottato (ovvero Megatron-LM), superando la velocità di Nvidia Transformer Engine del 17%. Ciò riduce notevolmente i costi di addestramento per i grandi modelli di base. Inoltre, la nostra metodologia di addestramento a precisione mista FP8 è generica. Può essere applicata senza soluzione di continuità ad altre attività come il tuning delle istruzioni degli LLM e l'apprendimento per rinforzo con feedback umano, offrendo risparmi nei costi di fine-tuning. Il nostro framework di addestramento a bassa precisione FP8 è open-source all'indirizzo {https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}.

ControlLLM: Potenziare i Modelli Linguistici con Strumenti mediante Ricerca su Grafi
ControlLLM: Augment Language Models with Tools by Searching on Graphs

Oct 26

ByZhaoyang Liu, Zeqiang Lai, Zhangwei Gao, Erfei Cui, Xizhou Zhu, Lewei Lu, Qifeng Chen, Yu Qiao, Jifeng Dai, Wenhai Wang

Presentiamo ControlLLM, un nuovo framework che consente ai grandi modelli linguistici (LLM) di utilizzare strumenti multimodali per risolvere complessi compiti del mondo reale. Nonostante le prestazioni notevoli degli LLM, essi incontrano ancora difficoltà nell'invocazione degli strumenti a causa di prompt utente ambigui, selezione e parametrizzazione imprecise degli strumenti e pianificazione inefficiente degli stessi. Per superare queste sfide, il nostro framework comprende tre componenti chiave: (1) un decompositore di compiti che suddivide un compito complesso in sottocompiti chiari con input e output ben definiti; (2) un paradigma Thoughts-on-Graph (ToG) che ricerca il percorso di soluzione ottimale su un grafo di strumenti pre-costruito, il quale specifica le relazioni di parametri e dipendenze tra diversi strumenti; e (3) un motore di esecuzione con un ricco toolbox che interpreta il percorso di soluzione e esegue gli strumenti in modo efficiente su diversi dispositivi computazionali. Valutiamo il nostro framework su una varietà di compiti che coinvolgono l'elaborazione di immagini, audio e video, dimostrando la sua superiorità in termini di accuratezza, efficienza e versatilità rispetto ai metodi esistenti.

PockEngine: Ottimizzazione Sparse ed Efficiente in uno Spazio Ridotto
PockEngine: Sparse and Efficient Fine-tuning in a Pocket

Oct 26

ByLigeng Zhu, Lanxiang Hu, Ji Lin, Wei-Chen Wang, Wei-Ming Chen, Chuang Gan, Song Han

L'apprendimento on-device e il fine-tuning efficiente consentono una personalizzazione continua e rispettosa della privacy (ad esempio, il fine-tuning locale di grandi modelli linguistici su dati personalizzati). Tuttavia, i framework di addestramento esistenti sono progettati per server cloud con acceleratori potenti (ad esempio, GPU, TPU) e mancano delle ottimizzazioni necessarie per l'apprendimento ai margini della rete, che deve affrontare le sfide delle limitazioni delle risorse e della diversità dell'hardware edge. Introduciamo PockEngine: un motore piccolo, sparso ed efficiente per abilitare il fine-tuning su vari dispositivi edge. PockEngine supporta la retropropagazione sparsa: pota il grafo di retropropagazione e aggiorna il modello in modo sparso, ottenendo un risparmio di memoria misurabile e una riduzione della latenza, mantenendo al contempo la qualità del modello. In secondo luogo, PockEngine è basato sulla compilazione: l'intero grafo di addestramento (inclusi i passi di forward, backward e ottimizzazione) viene derivato in fase di compilazione, riducendo l'overhead a runtime e aprendo opportunità per trasformazioni del grafo. PockEngine integra inoltre un ricco set di ottimizzazioni del grafo di addestramento, che possono ulteriormente accelerare i costi di addestramento, tra cui il riordinamento degli operatori e il cambio di backend. PockEngine supporta diverse applicazioni, frontend e backend hardware: compila e ottimizza in modo flessibile modelli definiti in PyTorch/TensorFlow/Jax e distribuisce binari su CPU/GPU/DSP mobili. Abbiamo valutato PockEngine sia su modelli di visione che su grandi modelli linguistici. PockEngine raggiunge un incremento di velocità fino a 15 volte rispetto a TensorFlow preconfigurato (Raspberry Pi) e un risparmio di memoria nella retropropagazione di 5,6 volte (Jetson AGX Orin). In modo notevole, PockEngine abilita il fine-tuning di LLaMav2-7B su NVIDIA Jetson AGX Orin a 550 token/s, 7,9 volte più veloce rispetto a PyTorch.

Modelli Linguistici di Grande Dimensione Centrati sui Dati Finanziari
Data-Centric Financial Large Language Models

Oct 7

ByZhixuan Chu, Huaiyu Guo, Xinyuan Zhou, Yijia Wang, Fei Yu, Hong Chen, Wanqing Xu, Xin Lu, Qing Cui, Longfei Li, Jun Zhou, Sheng Li

I grandi modelli linguistici (LLM) mostrano promettenti risultati nei compiti di elaborazione del linguaggio naturale, ma incontrano difficoltà quando applicati direttamente a domini complessi come la finanza. Gli LLM faticano a ragionare e integrare tutte le informazioni rilevanti. Proponiamo un approccio centrato sui dati per consentire agli LLM di gestire meglio i compiti finanziari. La nostra intuizione chiave è che, anziché sovraccaricare l'LLM con tutto in una volta, è più efficace pre-elaborare e pre-comprendere i dati. Creiamo un LLM finanziario (FLLM) utilizzando il fine-tuning basato su prompt multitask per ottenere la pre-elaborazione e la pre-comprensione dei dati. Tuttavia, i dati etichettati sono scarsi per ogni compito. Per superare i costi dell'annotazione manuale, impieghiamo il ragionamento di aumento abduttivo (AAR) per generare automaticamente dati di addestramento modificando le etichette pseudo derivate dagli output dello stesso FLLM. Gli esperimenti dimostrano che il nostro FLLM centrato sui dati con AAR supera significativamente i LLM finanziari di base progettati per il testo grezzo, raggiungendo risultati all'avanguardia nei compiti di analisi e interpretazione finanziaria. Rendiamo inoltre disponibile un nuovo benchmark open source per l'analisi e l'interpretazione finanziaria. La nostra metodologia offre una strada promettente per sbloccare il potenziale degli LLM nei domini complessi del mondo reale.

Un Framework per la Misurazione Automatica dei Danni dell'IA Responsabile nelle Applicazioni di IA Generativa
A Framework for Automated Measurement of Responsible AI Harms in Generative AI Applications

Oct 26

ByAhmed Magooda, Alec Helyar, Kyle Jackson, David Sullivan, Chad Atalla, Emily Sheng, Dan Vann, Richard Edgar, Hamid Palangi, Roman Lutz, Hongliang Kong, Vincent Yun, Eslam Kamal, Federico Zarfati, Hanna Wallach, Sarah Bird, Mei Chen

Presentiamo un framework per la misurazione automatizzata delle metriche di Intelligenza Artificiale Responsabile (RAI) per i modelli linguistici di grandi dimensioni (LLM) e i relativi prodotti e servizi. Il nostro framework per misurare automaticamente i danni causati dagli LLM si basa su competenze tecniche e sociotecniche esistenti e sfrutta le capacità degli LLM più avanzati, come GPT-4. Utilizziamo questo framework per condurre diversi casi di studio che indagano come diversi LLM possano violare una serie di principi legati alla RAI. Il framework può essere impiegato insieme a competenze sociotecniche specifiche del dominio per creare misurazioni per nuove aree di danno in futuro. Implementando questo framework, miriamo a consentire sforzi di misurazione dei danni più avanzati e a promuovere un uso responsabile degli LLM.

ZeroNVS: Sintesi di Viste a 360 Gradi Zero-Shot da una Singola Immagine Reale
ZeroNVS: Zero-Shot 360-Degree View Synthesis from a Single Real Image

Oct 27

ByKyle Sargent, Zizhang Li, Tanmay Shah, Charles Herrmann, Hong-Xing Yu, Yunzhi Zhang, Eric Ryan Chan, Dmitry Lagun, Li Fei-Fei, Deqing Sun, Jiajun Wu

Introduciamo ZeroNVS, un modello di diffusione 3D-aware per la sintesi di nuove viste da singola immagine in scene del mondo reale. Mentre i metodi esistenti sono progettati per singoli oggetti con sfondi mascherati, proponiamo nuove tecniche per affrontare le sfide introdotte da scene multi-oggetto con sfondi complessi. Nello specifico, addestriamo un priore generativo su una miscela di fonti di dati che catturano scene centrate su oggetti, ambienti interni ed esterni. Per risolvere problemi derivanti dalla miscela di dati, come l'ambiguità della scala di profondità, proponiamo una nuova parametrizzazione e schema di normalizzazione per il condizionamento della telecamera. Inoltre, osserviamo che il Score Distillation Sampling (SDS) tende a troncare la distribuzione di sfondi complessi durante la distillazione di scene a 360 gradi, e proponiamo "SDS anchoring" per migliorare la diversità delle nuove viste sintetizzate. Il nostro modello stabilisce un nuovo stato dell'arte in LPIPS sul dataset DTU in uno scenario zero-shot, superando persino metodi addestrati specificamente su DTU. Adattiamo inoltre il complesso dataset Mip-NeRF 360 come nuovo benchmark per la sintesi di nuove viste da singola immagine, dimostrando prestazioni solide in questo contesto. Il nostro codice e i dati sono disponibili su http://kylesargent.github.io/zeronvs/

Campi Neurali Radiance con Spazio Latente Ricostruttivo per Rappresentazioni 3D Efficienti
Reconstructive Latent-Space Neural Radiance Fields for Efficient 3D Scene Representations

Oct 27

ByTristan Aumentado-Armstrong, Ashkan Mirzaei, Marcus A. Brubaker, Jonathan Kelly, Alex Levinshtein, Konstantinos G. Derpanis, Igor Gilitschenski

I Neural Radiance Fields (NeRFs) si sono dimostrati rappresentazioni 3D potenti, in grado di sintetizzare nuove viste di alta qualità di scene complesse. Sebbene i NeRFs siano stati applicati in grafica, visione e robotica, problemi legati alla lentezza di rendering e ad artefatti visivi caratteristici ne impediscono l'adozione in molti casi d'uso. In questo lavoro, esploriamo la combinazione di un autoencoder (AE) con un NeRF, in cui vengono renderizzate feature latenti (invece dei colori) e poi decodificate convoluzionalmente. Il NeRF nello spazio latente risultante può produrre nuove viste con una qualità superiore rispetto ai NeRFs standard nello spazio colore, poiché l'AE può correggere determinati artefatti visivi, rendendo oltre tre volte più velocemente. Il nostro lavoro è ortogonale ad altre tecniche per migliorare l'efficienza dei NeRFs. Inoltre, possiamo controllare il compromesso tra efficienza e qualità dell'immagine riducendo l'architettura dell'AE, ottenendo un rendering oltre 13 volte più veloce con solo un piccolo calo delle prestazioni. Speriamo che il nostro approccio possa costituire la base di una rappresentazione 3D efficiente ma ad alta fedeltà per task successivi, specialmente quando è utile mantenere la differenziabilità, come in molti scenari robotici che richiedono apprendimento continuo.

I Modelli Linguistici di Grande Scala come Politiche Generalizzabili per Compiti Embodied
Large Language Models as Generalizable Policies for Embodied Tasks

Oct 26

ByAndrew Szot, Max Schwarzer, Harsh Agrawal, Bogdan Mazoure, Walter Talbott, Katherine Metcalf, Natalie Mackraz, Devon Hjelm, Alexander Toshev

Dimostriamo che i grandi modelli linguistici (LLM) possono essere adattati per diventare politiche generalizzabili per compiti visivi incarnati. Il nostro approccio, denominato Large LAnguage model Reinforcement Learning Policy (LLaRP), adatta un LLM pre-addestrato e congelato per ricevere come input istruzioni testuali e osservazioni visive egocentriche e produrre azioni direttamente nell'ambiente. Utilizzando l'apprendimento per rinforzo, addestriamo LLaRP a vedere e agire esclusivamente attraverso interazioni ambientali. Mostriamo che LLaRP è robusto rispetto a parafrasi complesse delle istruzioni dei compiti e può generalizzare a nuovi compiti che richiedono comportamenti ottimali innovativi. In particolare, su 1.000 compiti non visti in precedenza, raggiunge un tasso di successo del 42%, 1,7 volte superiore rispetto ad altre baseline comuni apprese o applicazioni zero-shot di LLM. Infine, per aiutare la comunità a studiare problemi di IA incarnata, multi-task massicci e condizionati dal linguaggio, rilasciamo un nuovo benchmark, Language Rearrangement, composto da 150.000 compiti di addestramento e 1.000 compiti di test per il riarrangiamento condizionato dal linguaggio. Esempi video di LLaRP in istruzioni non viste di Language Rearrangement sono disponibili su https://llm-rl.github.io.

Le Personas come Metodo per Modellare la Veridicità nei Modelli Linguistici
Personas as a Way to Model Truthfulness in Language Models

Oct 27

ByNitish Joishi, Javier Rando, Abulhair Saparov, Najoung Kim, He He

I Large Language Models vengono addestrati su enormi quantità di testo provenienti da internet, che contiene sia informazioni fattuali che fuorvianti sul mondo. I modelli linguistici sono in grado di distinguere la verità dalla falsità in questi dati contraddittori? Estendendo l'idea che i LLM possano modellare diversi agenti che producono i corpora, ipotizziamo che possano raggruppare testi veritieri modellando una persona veritiera: un gruppo di agenti che hanno maggiori probabilità di produrre testi veritieri e condividono caratteristiche simili. Ad esempio, fonti affidabili come Wikipedia e Science utilizzano solitamente stili di scrittura formali e fanno affermazioni coerenti. Modellando questa persona, i LLM possono generalizzare la veridicità oltre i contesti specifici in cui ogni agente ha generato il testo di addestramento. Ad esempio, il modello può dedurre che l'agente "Wikipedia" si comporterà in modo veritiero su argomenti generati solo da "Science" perché condividono una persona. In primo luogo, mostriamo evidenza dell'ipotesi della persona attraverso due osservazioni: (1) possiamo sondare se la risposta di un modello sarà veritiera prima che venga generata; (2) il fine-tuning di un modello su un insieme di fatti migliora la sua veridicità su argomenti non visti. Successivamente, utilizzando l'aritmetica come ambiente sintetico, dimostriamo che i modelli linguistici possono separare affermazioni vere e false e generalizzare la veridicità tra agenti; ma solo se gli agenti nei dati di addestramento condividono un processo generativo veritiero che consente la creazione di una persona veritiera. Nel complesso, i nostri risultati suggeriscono che i modelli possono sfruttare strutture gerarchiche nei dati per apprendere concetti astratti come la veridicità.

PockEngine: Ottimizzazione Sparse ed Efficiente in uno Spazio Ridotto
PockEngine: Sparse and Efficient Fine-tuning in a Pocket

Oct 26

ByLigeng Zhu, Lanxiang Hu, Ji Lin, Wei-Chen Wang, Wei-Ming Chen, Chuang Gan, Song Han