Articoli di ricerca IA selezionati quotidianamente con traduzioni
Immagina uno sviluppatore che può modificare solo l'ultima riga del proprio codice: quante volte dovrebbe ricominciare a scrivere una funzione da zero prima che sia corretta? I modelli auto-regressivi per la generazione di codice a partire da linguaggio naturale presentano una limitazione simile: non consentono facilmente di riconsiderare i token generati in precedenza. Introduciamo CodeFusion, un modello pre-addestrato di generazione di codice basato su diffusione che supera questa limitazione denoizzando iterativamente un programma completo condizionato dal linguaggio naturale codificato. Valutiamo CodeFusion nel compito di generazione di codice a partire da linguaggio naturale per Bash, Python e regole di formattazione condizionale (CF) di Microsoft Excel. Gli esperimenti dimostrano che CodeFusion (75M parametri) raggiunge prestazioni paragonabili ai sistemi auto-regressivi all'avanguardia (350M-175B parametri) in termini di accuratezza top-1 e li supera nelle accuratezze top-3 e top-5 grazie a un migliore equilibrio tra diversità e qualità.
In questo articolo, esploriamo i formati di dati a basso bit FP8 per l'addestramento efficiente di modelli linguistici di grandi dimensioni (LLM). La nostra intuizione chiave è che la maggior parte delle variabili, come i gradienti e gli stati dell'ottimizzatore, nell'addestramento degli LLM possono utilizzare formati di dati a bassa precisione senza compromettere l'accuratezza del modello e senza richiedere modifiche agli iperparametri. Nello specifico, proponiamo un nuovo framework automatico a precisione mista FP8 per l'addestramento degli LLM. Questo framework offre tre livelli di utilizzo dell'FP8 per semplificare l'addestramento a precisione mista e parallelo distribuito per gli LLM. Incorpora gradualmente gradienti a 8 bit, stati dell'ottimizzatore e apprendimento distribuito in modo incrementale. I risultati degli esperimenti mostrano che, durante l'addestramento del modello GPT-175B sulla piattaforma GPU H100, il nostro framework di addestramento a precisione mista FP8 non solo ha ottenuto una riduzione significativa del 42% nell'uso effettivo della memoria, ma ha anche funzionato il 64% più velocemente rispetto al framework BF16 ampiamente adottato (ovvero Megatron-LM), superando la velocità di Nvidia Transformer Engine del 17%. Ciò riduce notevolmente i costi di addestramento per i grandi modelli di base. Inoltre, la nostra metodologia di addestramento a precisione mista FP8 è generica. Può essere applicata senza soluzione di continuità ad altre attività come il tuning delle istruzioni degli LLM e l'apprendimento per rinforzo con feedback umano, offrendo risparmi nei costi di fine-tuning. Il nostro framework di addestramento a bassa precisione FP8 è open-source all'indirizzo {https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}.
Presentiamo ControlLLM, un nuovo framework che consente ai grandi modelli linguistici (LLM) di utilizzare strumenti multimodali per risolvere complessi compiti del mondo reale. Nonostante le prestazioni notevoli degli LLM, essi incontrano ancora difficoltà nell'invocazione degli strumenti a causa di prompt utente ambigui, selezione e parametrizzazione imprecise degli strumenti e pianificazione inefficiente degli stessi. Per superare queste sfide, il nostro framework comprende tre componenti chiave: (1) un decompositore di compiti che suddivide un compito complesso in sottocompiti chiari con input e output ben definiti; (2) un paradigma Thoughts-on-Graph (ToG) che ricerca il percorso di soluzione ottimale su un grafo di strumenti pre-costruito, il quale specifica le relazioni di parametri e dipendenze tra diversi strumenti; e (3) un motore di esecuzione con un ricco toolbox che interpreta il percorso di soluzione e esegue gli strumenti in modo efficiente su diversi dispositivi computazionali. Valutiamo il nostro framework su una varietà di compiti che coinvolgono l'elaborazione di immagini, audio e video, dimostrando la sua superiorità in termini di accuratezza, efficienza e versatilità rispetto ai metodi esistenti.
L'apprendimento on-device e il fine-tuning efficiente consentono una personalizzazione continua e rispettosa della privacy (ad esempio, il fine-tuning locale di grandi modelli linguistici su dati personalizzati). Tuttavia, i framework di addestramento esistenti sono progettati per server cloud con acceleratori potenti (ad esempio, GPU, TPU) e mancano delle ottimizzazioni necessarie per l'apprendimento ai margini della rete, che deve affrontare le sfide delle limitazioni delle risorse e della diversità dell'hardware edge. Introduciamo PockEngine: un motore piccolo, sparso ed efficiente per abilitare il fine-tuning su vari dispositivi edge. PockEngine supporta la retropropagazione sparsa: pota il grafo di retropropagazione e aggiorna il modello in modo sparso, ottenendo un risparmio di memoria misurabile e una riduzione della latenza, mantenendo al contempo la qualità del modello. In secondo luogo, PockEngine è basato sulla compilazione: l'intero grafo di addestramento (inclusi i passi di forward, backward e ottimizzazione) viene derivato in fase di compilazione, riducendo l'overhead a runtime e aprendo opportunità per trasformazioni del grafo. PockEngine integra inoltre un ricco set di ottimizzazioni del grafo di addestramento, che possono ulteriormente accelerare i costi di addestramento, tra cui il riordinamento degli operatori e il cambio di backend. PockEngine supporta diverse applicazioni, frontend e backend hardware: compila e ottimizza in modo flessibile modelli definiti in PyTorch/TensorFlow/Jax e distribuisce binari su CPU/GPU/DSP mobili. Abbiamo valutato PockEngine sia su modelli di visione che su grandi modelli linguistici. PockEngine raggiunge un incremento di velocità fino a 15 volte rispetto a TensorFlow preconfigurato (Raspberry Pi) e un risparmio di memoria nella retropropagazione di 5,6 volte (Jetson AGX Orin). In modo notevole, PockEngine abilita il fine-tuning di LLaMav2-7B su NVIDIA Jetson AGX Orin a 550 token/s, 7,9 volte più veloce rispetto a PyTorch.
I grandi modelli linguistici (LLM) mostrano promettenti risultati nei compiti di elaborazione del linguaggio naturale, ma incontrano difficoltà quando applicati direttamente a domini complessi come la finanza. Gli LLM faticano a ragionare e integrare tutte le informazioni rilevanti. Proponiamo un approccio centrato sui dati per consentire agli LLM di gestire meglio i compiti finanziari. La nostra intuizione chiave è che, anziché sovraccaricare l'LLM con tutto in una volta, è più efficace pre-elaborare e pre-comprendere i dati. Creiamo un LLM finanziario (FLLM) utilizzando il fine-tuning basato su prompt multitask per ottenere la pre-elaborazione e la pre-comprensione dei dati. Tuttavia, i dati etichettati sono scarsi per ogni compito. Per superare i costi dell'annotazione manuale, impieghiamo il ragionamento di aumento abduttivo (AAR) per generare automaticamente dati di addestramento modificando le etichette pseudo derivate dagli output dello stesso FLLM. Gli esperimenti dimostrano che il nostro FLLM centrato sui dati con AAR supera significativamente i LLM finanziari di base progettati per il testo grezzo, raggiungendo risultati all'avanguardia nei compiti di analisi e interpretazione finanziaria. Rendiamo inoltre disponibile un nuovo benchmark open source per l'analisi e l'interpretazione finanziaria. La nostra metodologia offre una strada promettente per sbloccare il potenziale degli LLM nei domini complessi del mondo reale.
Presentiamo un framework per la misurazione automatizzata delle metriche di Intelligenza Artificiale Responsabile (RAI) per i modelli linguistici di grandi dimensioni (LLM) e i relativi prodotti e servizi. Il nostro framework per misurare automaticamente i danni causati dagli LLM si basa su competenze tecniche e sociotecniche esistenti e sfrutta le capacità degli LLM più avanzati, come GPT-4. Utilizziamo questo framework per condurre diversi casi di studio che indagano come diversi LLM possano violare una serie di principi legati alla RAI. Il framework può essere impiegato insieme a competenze sociotecniche specifiche del dominio per creare misurazioni per nuove aree di danno in futuro. Implementando questo framework, miriamo a consentire sforzi di misurazione dei danni più avanzati e a promuovere un uso responsabile degli LLM.
Introduciamo ZeroNVS, un modello di diffusione 3D-aware per la sintesi di nuove viste da singola immagine in scene del mondo reale. Mentre i metodi esistenti sono progettati per singoli oggetti con sfondi mascherati, proponiamo nuove tecniche per affrontare le sfide introdotte da scene multi-oggetto con sfondi complessi. Nello specifico, addestriamo un priore generativo su una miscela di fonti di dati che catturano scene centrate su oggetti, ambienti interni ed esterni. Per risolvere problemi derivanti dalla miscela di dati, come l'ambiguità della scala di profondità, proponiamo una nuova parametrizzazione e schema di normalizzazione per il condizionamento della telecamera. Inoltre, osserviamo che il Score Distillation Sampling (SDS) tende a troncare la distribuzione di sfondi complessi durante la distillazione di scene a 360 gradi, e proponiamo "SDS anchoring" per migliorare la diversità delle nuove viste sintetizzate. Il nostro modello stabilisce un nuovo stato dell'arte in LPIPS sul dataset DTU in uno scenario zero-shot, superando persino metodi addestrati specificamente su DTU. Adattiamo inoltre il complesso dataset Mip-NeRF 360 come nuovo benchmark per la sintesi di nuove viste da singola immagine, dimostrando prestazioni solide in questo contesto. Il nostro codice e i dati sono disponibili su http://kylesargent.github.io/zeronvs/
I Neural Radiance Fields (NeRFs) si sono dimostrati rappresentazioni 3D potenti, in grado di sintetizzare nuove viste di alta qualità di scene complesse. Sebbene i NeRFs siano stati applicati in grafica, visione e robotica, problemi legati alla lentezza di rendering e ad artefatti visivi caratteristici ne impediscono l'adozione in molti casi d'uso. In questo lavoro, esploriamo la combinazione di un autoencoder (AE) con un NeRF, in cui vengono renderizzate feature latenti (invece dei colori) e poi decodificate convoluzionalmente. Il NeRF nello spazio latente risultante può produrre nuove viste con una qualità superiore rispetto ai NeRFs standard nello spazio colore, poiché l'AE può correggere determinati artefatti visivi, rendendo oltre tre volte più velocemente. Il nostro lavoro è ortogonale ad altre tecniche per migliorare l'efficienza dei NeRFs. Inoltre, possiamo controllare il compromesso tra efficienza e qualità dell'immagine riducendo l'architettura dell'AE, ottenendo un rendering oltre 13 volte più veloce con solo un piccolo calo delle prestazioni. Speriamo che il nostro approccio possa costituire la base di una rappresentazione 3D efficiente ma ad alta fedeltà per task successivi, specialmente quando è utile mantenere la differenziabilità, come in molti scenari robotici che richiedono apprendimento continuo.
Dimostriamo che i grandi modelli linguistici (LLM) possono essere adattati per diventare politiche generalizzabili per compiti visivi incarnati. Il nostro approccio, denominato Large LAnguage model Reinforcement Learning Policy (LLaRP), adatta un LLM pre-addestrato e congelato per ricevere come input istruzioni testuali e osservazioni visive egocentriche e produrre azioni direttamente nell'ambiente. Utilizzando l'apprendimento per rinforzo, addestriamo LLaRP a vedere e agire esclusivamente attraverso interazioni ambientali. Mostriamo che LLaRP è robusto rispetto a parafrasi complesse delle istruzioni dei compiti e può generalizzare a nuovi compiti che richiedono comportamenti ottimali innovativi. In particolare, su 1.000 compiti non visti in precedenza, raggiunge un tasso di successo del 42%, 1,7 volte superiore rispetto ad altre baseline comuni apprese o applicazioni zero-shot di LLM. Infine, per aiutare la comunità a studiare problemi di IA incarnata, multi-task massicci e condizionati dal linguaggio, rilasciamo un nuovo benchmark, Language Rearrangement, composto da 150.000 compiti di addestramento e 1.000 compiti di test per il riarrangiamento condizionato dal linguaggio. Esempi video di LLaRP in istruzioni non viste di Language Rearrangement sono disponibili su https://llm-rl.github.io.
I Large Language Models vengono addestrati su enormi quantità di testo provenienti da internet, che contiene sia informazioni fattuali che fuorvianti sul mondo. I modelli linguistici sono in grado di distinguere la verità dalla falsità in questi dati contraddittori? Estendendo l'idea che i LLM possano modellare diversi agenti che producono i corpora, ipotizziamo che possano raggruppare testi veritieri modellando una persona veritiera: un gruppo di agenti che hanno maggiori probabilità di produrre testi veritieri e condividono caratteristiche simili. Ad esempio, fonti affidabili come Wikipedia e Science utilizzano solitamente stili di scrittura formali e fanno affermazioni coerenti. Modellando questa persona, i LLM possono generalizzare la veridicità oltre i contesti specifici in cui ogni agente ha generato il testo di addestramento. Ad esempio, il modello può dedurre che l'agente "Wikipedia" si comporterà in modo veritiero su argomenti generati solo da "Science" perché condividono una persona. In primo luogo, mostriamo evidenza dell'ipotesi della persona attraverso due osservazioni: (1) possiamo sondare se la risposta di un modello sarà veritiera prima che venga generata; (2) il fine-tuning di un modello su un insieme di fatti migliora la sua veridicità su argomenti non visti. Successivamente, utilizzando l'aritmetica come ambiente sintetico, dimostriamo che i modelli linguistici possono separare affermazioni vere e false e generalizzare la veridicità tra agenti; ma solo se gli agenti nei dati di addestramento condividono un processo generativo veritiero che consente la creazione di una persona veritiera. Nel complesso, i nostri risultati suggeriscono che i modelli possono sfruttare strutture gerarchiche nei dati per apprendere concetti astratti come la veridicità.