Articoli di ricerca IA selezionati quotidianamente con traduzioni
Negli ultimi anni si è assistito a un rapido sviluppo dei modelli linguistici di grandi dimensioni (LLM). Nonostante le notevoli capacità in molti compiti di comprensione del linguaggio, l'elevato carico computazionale limita fortemente l'applicazione degli LLM, specialmente quando si desidera implementarli su dispositivi edge. In questo articolo, proponiamo un algoritmo di adattamento a basso rango con consapevolezza della quantizzazione (QA-LoRA). La motivazione risiede nei gradi di libertà sbilanciati della quantizzazione e dell'adattamento, e la soluzione consiste nell'utilizzare operatori per gruppi che aumentano il grado di libertà della quantizzazione riducendo contemporaneamente quello dell'adattamento. QA-LoRA è facilmente implementabile con poche righe di codice e conferisce all'originale LoRA due capacità fondamentali: (i) durante il fine-tuning, i pesi dell'LLM vengono quantizzati (ad esempio, in INT4) per ridurre l'uso di tempo e memoria; (ii) dopo il fine-tuning, l'LLM e i pesi ausiliari vengono integrati naturalmente in un modello quantizzato senza perdita di accuratezza. Applichiamo QA-LoRA alle famiglie di modelli LLaMA e LLaMA2 e ne validiamo l'efficacia in diversi dataset di fine-tuning e scenari downstream. Il codice sarà reso disponibile all'indirizzo https://github.com/yuhuixu1993/qa-lora.
Questo lavoro mira a apprendere un modello generativo di testo-video (T2V) di alta qualità sfruttando un modello pre-addestrato di testo-immagine (T2I) come base. Si tratta di un compito altamente desiderabile ma impegnativo, poiché richiede di a) realizzare la sintesi di video visivamente realistici e temporalmente coerenti, mentre b) preserva la forte natura creativa di generazione del modello T2I pre-addestrato. A tal fine, proponiamo LaVie, un framework integrato di generazione video che opera su modelli di diffusione latente video a cascata, comprendendo un modello T2V di base, un modello di interpolazione temporale e un modello di super-risoluzione video. Le nostre intuizioni chiave sono due: 1) Riveliamo che l'incorporazione di semplici auto-attenzioni temporali, accoppiate con la codifica posizionale rotativa, cattura adeguatamente le correlazioni temporali intrinseche nei dati video. 2) Inoltre, validiamo che il processo di fine-tuning congiunto immagine-video svolge un ruolo fondamentale nel produrre risultati di alta qualità e creativi. Per migliorare le prestazioni di LaVie, contribuiamo con un dataset video completo e diversificato denominato Vimeo25M, composto da 25 milioni di coppie testo-video che privilegiano qualità, diversità e attrattiva estetica. Esperimenti estensivi dimostrano che LaVie raggiunge prestazioni all'avanguardia sia quantitativamente che qualitativamente. Inoltre, mostriamo la versatilità dei modelli LaVie pre-addestrati in varie applicazioni di generazione di video lunghi e sintesi video personalizzata.
Il calcolo in un tipico modello linguistico di grandi dimensioni (LLM) basato su Transformer può essere caratterizzato da dimensione del batch, dimensione nascosta, numero di livelli e lunghezza della sequenza. Fino ad ora, i lavori di sistema per accelerare l'addestramento degli LLM si sono concentrati sui primi tre aspetti: parallelismo dei dati per la dimensione del batch, parallelismo tensoriale per la dimensione nascosta e parallelismo pipeline per la profondità del modello o i livelli. Queste forme di parallelismo ampiamente studiate non sono mirate o ottimizzate per modelli Transformer con sequenze lunghe. Date le esigenze pratiche delle applicazioni per LLM con sequenze lunghe, si sta ridestando l'attenzione sul parallelismo delle sequenze. Tuttavia, i lavori esistenti sul parallelismo delle sequenze sono limitati da inefficienze di memoria-comunicazione, che ne riducono la scalabilità per modelli di grandi dimensioni con sequenze lunghe. In questo lavoro, introduciamo DeepSpeed-Ulysses, una metodologia innovativa, portabile ed efficace per abilitare un addestramento di LLM altamente efficiente e scalabile con lunghezze di sequenza estremamente elevate. DeepSpeed-Ulysses, nel suo nucleo, partiziona i dati di input lungo la dimensione della sequenza e utilizza una comunicazione collettiva all-to-all efficiente per il calcolo dell'attenzione. L'analisi teorica della comunicazione mostra che, mentre altri metodi comportano un sovraccarico di comunicazione all'aumentare della lunghezza della sequenza, DeepSpeed-Ulysses mantiene un volume di comunicazione costante quando la lunghezza della sequenza e i dispositivi di calcolo vengono aumentati proporzionalmente. Inoltre, le valutazioni sperimentali dimostrano che DeepSpeed-Ulysses addestra 2,5 volte più velocemente con una lunghezza di sequenza 4 volte maggiore rispetto al metodo esistente di riferimento SOTA.
I recenti progressi nei metodi di deep learning, come i modelli LLM e i modelli di diffusione, hanno creato la necessità di migliorare i metodi di quantizzazione in grado di soddisfare le esigenze computazionali di queste moderne architetture mantenendo al contempo l'accuratezza. Verso questo obiettivo, studiamo i vantaggi dei formati di dati FP8 per la quantizzazione post-addestramento su 75 architetture di rete uniche, coprendo un'ampia gamma di task, tra cui traduzione automatica, modellazione del linguaggio, generazione di testo, classificazione di immagini, generazione e segmentazione. Esaminiamo tre diverse rappresentazioni FP8 (E5M2, E4M3 ed E3M4) per studiare gli effetti di diversi gradi di compromesso tra intervallo dinamico e precisione sull'accuratezza del modello. Sulla base del nostro ampio studio, abbiamo sviluppato un flusso di lavoro di quantizzazione che si generalizza su diverse architetture di rete. I nostri risultati empirici mostrano che i formati FP8 superano INT8 in molteplici aspetti, tra cui copertura del carico di lavoro (92,64% vs. 65,87%), accuratezza del modello e idoneità per un'ampia gamma di operazioni. Inoltre, i nostri risultati suggeriscono che E4M3 è più adatto per i modelli NLP, mentre E3M4 performa leggermente meglio di E4M3 sui task di computer vision. Il codice è pubblicamente disponibile su Intel Neural Compressor: https://github.com/intel/neural-compressor.
Investigiamo il comportamento interno dei modelli linguistici su larga scala (LLM) basati su Transformer quando generano testi fattualmente errati. Proponiamo di modellare le query fattuali come Problemi di Soddisfazione dei Vincoli e utilizziamo questo framework per studiare come il modello interagisce internamente con i vincoli fattuali. In particolare, scopriamo una forte relazione positiva tra l'attenzione del modello sui token dei vincoli e l'accuratezza fattuale delle sue risposte. Nella nostra suite curata di 11 dataset con oltre 40.000 prompt, studiamo il compito di prevedere errori fattuali con la famiglia Llama-2 su tutte le scale (7B, 13B, 70B). Proponiamo SAT Probe, un metodo che analizza i pattern di self-attention, in grado di prevedere la soddisfazione dei vincoli e gli errori fattuali, consentendo l'identificazione precoce degli errori. L'approccio e i risultati dimostrano come l'utilizzo della comprensione meccanicistica della fattualità nei LLM possa migliorare l'affidabilità.