Articoli di ricerca IA selezionati quotidianamente con traduzioni
I recenti successi rivoluzionari nel campo dell'apprendimento automatico sono principalmente attribuiti alla scala: ovvero architetture basate su meccanismi di attenzione su larga scala e dataset di dimensioni senza precedenti. Questo articolo indaga l'impatto dell'addestramento su larga scala nel contesto degli scacchi. A differenza dei tradizionali motori scacchistici che si basano su euristiche complesse, ricerca esplicita o una combinazione di entrambi, addestriamo un modello transformer da 270 milioni di parametri con apprendimento supervisionato su un dataset di 10 milioni di partite di scacchi. Annotiamo ogni scacchiera nel dataset con valori di azione forniti dal potente motore Stockfish 16, ottenendo circa 15 miliardi di punti dati. Il nostro modello più grande raggiunge un punteggio Elo blitz su Lichess di 2895 contro esseri umani e risolve con successo una serie di complessi problemi scacchistici, senza alcuna modifica specifica per il dominio o algoritmi di ricerca espliciti. Dimostriamo inoltre che il nostro modello supera le reti di policy e valore di AlphaZero (senza MCTS) e GPT-3.5-turbo-instruct. Un'indagine sistematica delle dimensioni del modello e del dataset mostra che prestazioni scacchistiche solide emergono solo a una scala sufficiente. Per validare i nostri risultati, eseguiamo un'ampia serie di ablazioni sulle scelte progettuali e sugli iperparametri.
Le interfacce utente (UI) su schermo e le infografiche, condividendo un linguaggio visivo e principi di design simili, svolgono ruoli importanti nella comunicazione umana e nell'interazione uomo-macchina. Presentiamo ScreenAI, un modello visione-linguaggio specializzato nella comprensione di UI e infografiche. Il nostro modello migliora l'architettura PaLI con la strategia flessibile di patch di pix2struct ed è addestrato su una miscela unica di dataset. Al centro di questa miscela c'è un nuovo compito di annotazione dello schermo in cui il modello deve identificare il tipo e la posizione degli elementi UI. Utilizziamo queste annotazioni testuali per descrivere gli schermi ai Modelli Linguistici di Grande Dimensione e generare automaticamente dataset di addestramento per domande-risposte (QA), navigazione UI e riassunto su larga scala. Eseguiamo studi di ablazione per dimostrare l'impatto di queste scelte progettuali. Con soli 5 miliardi di parametri, ScreenAI raggiunge nuovi risultati all'avanguardia su task basati su UI e infografiche (Multi-page DocVQA, WebSRC, MoTIF e Widget Captioning) e nuove prestazioni migliori della categoria su altri (Chart QA, DocVQA e InfographicVQA) rispetto a modelli di dimensioni simili. Infine, rilasciamo tre nuovi dataset: uno focalizzato sul compito di annotazione dello schermo e altri due dedicati alle domande-risposte.
I metodi di allineamento diretto dalle preferenze (DAP), come il DPO, sono emersi recentemente come alternative efficienti al reinforcement learning con feedback umano (RLHF), che non richiedono un modello di ricompensa separato. Tuttavia, i dataset di preferenze utilizzati nei metodi DAP sono generalmente raccolti prima dell'addestramento e non vengono mai aggiornati, rendendo il feedback puramente offline. Inoltre, le risposte in questi dataset sono spesso campionate da un modello linguistico diverso da quello che si sta allineando, e poiché il modello evolve durante l'addestramento, la fase di allineamento è inevitabilmente off-policy. In questo studio, ipotizziamo che il feedback online sia fondamentale e migliori i metodi DAP. Il nostro metodo, feedback online da intelligenza artificiale (OAIF), utilizza un LLM come annotatore: in ogni iterazione di addestramento, campioniamo due risposte dal modello corrente e chiediamo all'annotatore LLM di scegliere quale sia preferita, fornendo così un feedback online. Nonostante la sua semplicità, dimostriamo attraverso valutazioni umane in diversi compiti che OAIF supera sia i metodi DAP offline che i metodi RLHF. Inoltre, mostriamo che il feedback utilizzato in OAIF è facilmente controllabile, tramite prompt di istruzione all'annotatore LLM.
La creazione di contenuti 3D ha compiuto progressi significativi sia in termini di qualità che di velocità. Sebbene i modelli feed-forward attuali possano produrre oggetti 3D in pochi secondi, la loro risoluzione è limitata dall'intenso calcolo richiesto durante l'addestramento. In questo articolo, introduciamo il Large Multi-View Gaussian Model (LGM), un nuovo framework progettato per generare modelli 3D ad alta risoluzione a partire da prompt testuali o immagini a singola vista. Le nostre intuizioni chiave sono due: 1) Rappresentazione 3D: Proponiamo le caratteristiche gaussiane multi-vista come una rappresentazione efficiente ma potente, che può poi essere fusa per il rendering differenziabile. 2) Backbone 3D: Presentiamo una U-Net asimmetrica come backbone ad alta produttività che opera su immagini multi-vista, le quali possono essere generate da input testuali o immagini a singola vista sfruttando modelli di diffusione multi-vista. Esperimenti estensivi dimostrano l'alta fedeltà e l'efficienza del nostro approccio. In particolare, manteniamo la velocità di generazione di oggetti 3D entro 5 secondi, aumentando al contempo la risoluzione di addestramento a 512, raggiungendo così la generazione di contenuti 3D ad alta risoluzione.
Presentiamo EfficientViT-SAM, una nuova famiglia di modelli accelerati per il segmentazione di qualsiasi oggetto. Manteniamo il prompt encoder leggero e il decoder delle maschere di SAM, sostituendo il pesante image encoder con EfficientViT. Per l'addestramento, iniziamo con la distillazione della conoscenza dall'image encoder SAM-ViT-H a EfficientViT. Successivamente, conduciamo un addestramento end-to-end sul dataset SA-1B. Grazie all'efficienza e alla capacità di EfficientViT, EfficientViT-SAM offre un'accelerazione misurata di 48.9x su GPU A100 con TensorRT rispetto a SAM-ViT-H, senza compromettere le prestazioni. Il nostro codice e i modelli pre-addestrati sono disponibili all'indirizzo https://github.com/mit-han-lab/efficientvit.
I modelli linguistici di grandi dimensioni (LLM) basati su Transformer sono ora utilizzati da centinaia di milioni di utenti. L'inferenza degli LLM viene comunemente eseguita su batch di sequenze che condividono un prefisso, come esempi few-shot o il prompt di un sistema di chatbot. Il decoding in questo contesto di grandi batch può essere limitato dall'operazione di attenzione, che legge grandi cache di chiavi-valori (KV) dalla memoria e calcola prodotti matrice-vettore inefficienti per ogni sequenza nel batch. In questo lavoro, introduciamo Hydragen, un'implementazione esatta e consapevole dell'hardware dell'attenzione con prefissi condivisi. Hydragen calcola l'attenzione sul prefisso condiviso e sui suffissi unici separatamente. Questa scomposizione consente un'attenzione efficiente sul prefisso raggruppando le query tra le sequenze, riducendo le letture ridondanti dalla memoria e permettendo l'uso di moltiplicazioni matriciali ottimizzate per l'hardware. Il nostro metodo può migliorare il throughput end-to-end degli LLM fino a 32 volte rispetto a baseline competitive, con un'accelerazione che cresce con la dimensione del batch e la lunghezza del prefisso condiviso. Hydragen consente inoltre l'uso di contesti condivisi molto lunghi: con un batch di grandi dimensioni, aumentare la lunghezza del prefisso da 1K a 16K token riduce il throughput di Hydragen di meno del 15%, mentre il throughput delle baseline diminuisce di oltre il 90%. Hydragen si generalizza oltre la semplice scomposizione prefisso-suffisso e può essere applicato a schemi di condivisione dei prompt basati su alberi, permettendoci di ridurre ulteriormente il tempo di inferenza su problemi di programmazione competitiva del 55%.
Le attenzioni lineari hanno dimostrato potenziale nel migliorare l'efficienza dei Transformer, riducendo la complessità quadratica dell'attenzione a lineare rispetto alla lunghezza della sequenza. Ciò apre prospettive entusiasmanti per (1) l'addestramento di Transformer lineari da zero, (2) la "conversione fine-tuned" di Transformer specifici per un compito in versioni lineari che recuperano le prestazioni del compito, e (3) la "conversione pretrained" di Transformer come i grandi modelli linguistici in versioni lineari fine-tunabili su compiti downstream. Tuttavia, le attenzioni lineari spesso ottengono prestazioni inferiori rispetto all'attenzione softmax standard in termini di qualità. Per colmare questo divario di prestazioni, abbiamo osservato che le precedenti attenzioni lineari mancano di proprietà chiave dell'attenzione softmax legate a buone prestazioni: pesi a bassa entropia (o "spiky") e monotonicità del prodotto scalare. Abbiamo inoltre osservato mappe di caratteristiche sorprendentemente semplici che mantengono queste proprietà e raggiungono le prestazioni della softmax, ma sono inefficienti da calcolare nell'attenzione lineare. Proponiamo quindi Hedgehog, un'attenzione lineare apprendibile che mantiene le proprietà spiky e monotoniche dell'attenzione softmax pur conservando una complessità lineare. Hedgehog utilizza semplici MLP addestrabili per produrre pesi di attenzione che imitano l'attenzione softmax. Gli esperimenti mostrano che Hedgehog recupera oltre il 99% della qualità del Transformer standard in contesti di addestramento da zero e conversione fine-tuned, superando le precedenti attenzioni lineari fino a 6 punti di perplexity su WikiText-103 con GPT causali, e fino a 8,7 punti di punteggio GLUE su BERT bidirezionali fine-tuned. Hedgehog abilita anche la conversione pretrained. Convertire un GPT-2 pretrained in una variante di attenzione lineare raggiunge uno stato dell'arte di 16,7 di perplexity su WikiText-103 per modelli decoder subquadratici da 125M. Infine, trasformiamo un Llama-2 7B pretrained in un Llama con attenzione lineare praticabile. Con l'adattamento a basso rango, Hedgehog-Llama2 7B raggiunge 28,1 punti ROUGE-1 in più rispetto al modello base con attenzione standard, mentre le precedenti attenzioni lineari portano a un calo di 16,5 punti.
I modelli linguistici di grandi dimensioni stanno risolvendo sempre più compiti che si ritiene comunemente richiedano capacità di ragionamento a livello umano. Tuttavia, questi modelli continuano a ottenere prestazioni molto scarse su benchmark di intelligenza generale come il Corpus di Astrazione e Ragionamento (ARC). In questo articolo, affrontiamo ARC come un problema di programmazione tramite esempi e introduciamo un metodo nuovo e scalabile per l'auto-miglioramento dei modelli linguistici chiamato Iterazione del Codice (CodeIt). Il nostro metodo alterna tra 1) campionamento di programmi e rilabeling retrospettivo, e 2) apprendimento da replay di esperienze prioritarie. Rilabelando l'obiettivo di un episodio (cioè, l'output del programma target dato l'input) con l'output effettivamente prodotto dal programma campionato, il nostro metodo affronta efficacemente l'estrema scarsità di ricompense nella sintesi di programmi. Applicando CodeIt al dataset ARC, dimostriamo che il replay retrospettivo prioritario, insieme al pre-training e all'aumentazione dei dati, porta a una generalizzazione inter-task di successo. CodeIt è il primo approccio neuro-simbolico che scala all'intero dataset di valutazione ARC. Il nostro metodo risolve il 15% dei task di valutazione ARC, raggiungendo prestazioni all'avanguardia e superando le baseline neurali e simboliche esistenti.
Generare audio stereo a 44,1 kHz di lunga durata a partire da prompt testuali può essere computazionalmente impegnativo. Inoltre, la maggior parte dei lavori precedenti non affronta il fatto che musica ed effetti sonori variano naturalmente nella loro durata. La nostra ricerca si concentra sulla generazione efficiente di musica e suoni stereo a 44,1 kHz di lunga durata e lunghezza variabile utilizzando prompt testuali con un modello generativo. Stable Audio si basa sulla diffusione latente, con il suo spazio latente definito da un autoencoder variazionale completamente convoluzionale. È condizionato da prompt testuali e da embedding temporali, consentendo un controllo preciso sia sul contenuto che sulla lunghezza della musica e dei suoni generati. Stable Audio è in grado di produrre segnali stereo fino a 95 secondi a 44,1 kHz in 8 secondi su una GPU A100. Nonostante la sua efficienza computazionale e l'inferenza veloce, è uno dei migliori in due benchmark pubblici di testo-musica e testo-audio e, a differenza dei modelli all'avanguardia, è in grado di generare musica con struttura e suoni stereo.
In questo articolo, presentiamo un metodo innovativo che riduce la latenza di inferenza del modello durante il deployment distribuito di Large Language Models (LLM). Il nostro contributo è uno schema di inferenza ottimizzato che affronta le attuali limitazioni dei kernel di quantizzazione all'avanguardia quando utilizzati in combinazione con il Tensor Parallel (TP). Il nostro metodo preserva la località dei dati nei pattern di accesso alla memoria GPU e sfrutta la conoscenza a priori del TP per ridurre la comunicazione globale. Dimostriamo un miglioramento fino a 1,81x rispetto ai metodi esistenti per Llama-70B e fino a 1,78x per le dimensioni del problema dello strato MLP di Granite-20B di IBM WatsonX su sistemi NVIDIA DGX A100 e H100, per una varietà di configurazioni TP.
La sparsità strutturata N:M ha attirato un notevole interesse grazie al suo overhead relativamente modesto e al miglioramento dell'efficienza. Inoltre, questa forma di sparsità è particolarmente attraente per ridurre l'impronta di memoria a causa del suo overhead di rappresentazione contenuto. Ci sono stati sforzi per sviluppare ricette di addestramento per la sparsità strutturata N:M, che si concentrano principalmente su regioni a bassa sparsità (circa 50\%). Tuttavia, le prestazioni dei modelli addestrati con questi approcci tendono a diminuire quando si confrontano con regioni ad alta sparsità (>80\%). In questo lavoro, studiamo l'efficacia delle ricette di addestramento sparse esistenti nelle regioni ad alta sparsità e sosteniamo che questi metodi non riescono a mantenere la qualità del modello allo stesso livello delle regioni a bassa sparsità. Dimostriamo che il fattore significativo che contribuisce a questa disparità è la presenza di livelli elevati di rumore indotto nelle magnitudini dei gradienti. Per mitigare questo effetto indesiderato, utilizziamo meccanismi di decadimento per limitare progressivamente il flusso dei gradienti verso gli elementi potati. Il nostro approccio migliora la qualità del modello fino al 2% e al 5% nei modelli di visione e linguaggio rispettivamente nel regime di alta sparsità. Valutiamo anche il compromesso tra l'accuratezza del modello e il costo computazionale di addestramento in termini di FLOPs. A parità di FLOPs di addestramento, il nostro metodo offre prestazioni migliori rispetto alle ricette di addestramento sparse convenzionali, mostrando un miglioramento dell'accuratezza fino al 2%. Il codice sorgente è disponibile all'indirizzo https://github.com/abhibambhaniya/progressive_gradient_flow_nm_sparsity.