Articoli di ricerca IA selezionati quotidianamente con traduzioni
Continuiamo l'indagine sul potenziale dei modelli linguistici basati su Transformer di dimensioni ridotte, iniziata con TinyStories -- un modello da 10 milioni di parametri in grado di generare testi coerenti in inglese -- e proseguita con il lavoro su phi-1, un modello da 1,3 miliardi di parametri con prestazioni di codifica Python vicine allo stato dell'arte. Quest'ultimo lavoro ha proposto di utilizzare i modelli linguistici di grandi dimensioni (LLM) esistenti per generare dati di "qualità da manuale" come metodo per migliorare il processo di apprendimento rispetto ai tradizionali dati web. Seguiamo l'approccio "Textbooks Are All You Need", concentrandoci questa volta sul ragionamento di senso comune in linguaggio naturale, e creiamo un nuovo modello da 1,3 miliardi di parametri denominato phi-1.5, con prestazioni su compiti di linguaggio naturale paragonabili a modelli 5 volte più grandi, e che supera la maggior parte dei LLM non di frontiera su compiti di ragionamento più complessi come la matematica di livello scolastico e la codifica di base. Più in generale, phi-1.5 mostra molte delle caratteristiche dei LLM molto più grandi, sia positive -- come la capacità di "pensare passo dopo passo" o eseguire un apprendimento contestuale rudimentale -- sia negative, tra cui allucinazioni e il potenziale per generazioni tossiche e distorte -- sebbene, incoraggiantemente, stiamo osservando miglioramenti su questo fronte grazie all'assenza di dati web. Rilasciamo phi-1.5 come open-source per promuovere ulteriori ricerche su questi temi urgenti.
Sebbene i recenti Modelli Linguistici Multimodali di Grande Scala (MM-LLMs) abbiano compiuto progressi entusiasmanti, sono per lo più limitati alla comprensione multimodale solo in input, senza la capacità di produrre contenuti in più modalità. Poiché noi esseri umani percepiamo il mondo e comunichiamo con gli altri attraverso varie modalità, lo sviluppo di MM-LLMs any-to-any in grado di accettare e fornire contenuti in qualsiasi modalità diventa essenziale per raggiungere un livello di intelligenza artificiale paragonabile a quello umano. Per colmare questa lacuna, presentiamo NExT-GPT, un sistema MM-LLM any-to-any generico end-to-end. Colleghiamo un LLM con adattatori multimodali e diversi decoder di diffusione, consentendo a NExT-GPT di percepire input e generare output in combinazioni arbitrarie di testo, immagini, video e audio. Sfruttando encoder e decoder esistenti altamente performanti e ben addestrati, NExT-GPT viene ottimizzato utilizzando solo una piccola quantità di parametri (1%) di determinati strati di proiezione, il che non solo favorisce un addestramento a basso costo, ma facilita anche l'espansione conveniente a ulteriori modalità potenziali. Inoltre, introduciamo una tecnica di ottimizzazione tramite istruzioni di commutazione di modalità (MosIT) e curiamo manualmente un dataset di alta qualità per MosIT, sulla base del quale NExT-GPT è potenziato con una comprensione semantica cross-modale complessa e la generazione di contenuti. Nel complesso, la nostra ricerca dimostra la promettente possibilità di costruire un agente AI in grado di modellare modalità universali, aprendo la strada a una ricerca AI più simile a quella umana nella comunità.
Presentiamo MADLAD-400, un dataset monolingue di dominio generale da 3T token, sottoposto a revisione manuale e basato su CommonCrawl, che copre 419 lingue. Discutiamo le limitazioni emerse durante l'auto-revisione di MADLAD-400 e il ruolo che la revisione dei dati ha avuto nel processo di creazione del dataset. Successivamente, addestriamo e rilasciamo un modello di traduzione automatica multilingue da 10,7 miliardi di parametri su 250 miliardi di token che coprono oltre 450 lingue utilizzando dati pubblicamente disponibili, riscontrando che è competitivo con modelli significativamente più grandi, e riportiamo i risultati su diversi domini. Inoltre, addestriamo un modello linguistico da 8 miliardi di parametri e valutiamo i risultati sulla traduzione few-shot. Rendiamo disponibili i modelli di base alla comunità di ricerca.
In questo lavoro, utilizziamo modelli linguistici di grandi dimensioni (LLM) per potenziare e accelerare la ricerca sul problema P versus NP, uno dei problemi aperti più importanti nell'informatica teorica e nella matematica. Nello specifico, proponiamo il ragionamento socratico, un framework generale che promuove un pensiero approfondito con gli LLM per la risoluzione di problemi complessi. Il ragionamento socratico incoraggia gli LLM a scoprire, risolvere e integrare problemi in modo ricorsivo, facilitando al contempo l'autovalutazione e il perfezionamento. Il nostro studio pilota sul problema P vs. NP dimostra che GPT-4 produce con successo uno schema di prova e si impegna in un ragionamento rigoroso attraverso 97 turni di dialogo, concludendo "P ≠ NP", in linea con (Xu e Zhou, 2023). L'indagine rivela nuove intuizioni all'interno dello spazio di soluzione esteso degli LLM, gettando luce sull'uso degli LLM per la scienza.
Analizziamo una famiglia di modelli linguistici di grandi dimensioni in modo così leggero da poter essere eseguito su una singola GPU. Nello specifico, ci concentriamo sulla famiglia di modelli OPT, che vanno da 125 milioni a 66 miliardi di parametri, e ci basiamo esclusivamente sul fatto che un neurone FFN sia attivato o meno. In primo luogo, osserviamo che la parte iniziale della rete è sparsa e rappresenta molte caratteristiche discrete. Qui, molti neuroni (più del 70% in alcuni strati del modello da 66 miliardi) sono "morti", cioè non si attivano mai su un'ampia raccolta di dati diversificati. Allo stesso tempo, molti dei neuroni attivi sono riservati a caratteristiche discrete e agiscono come rilevatori di token e n-grammi. È interessante notare che i loro corrispondenti aggiornamenti FFN non solo promuovono i candidati per il token successivo, come ci si potrebbe aspettare, ma si concentrano anche esplicitamente sulla rimozione delle informazioni relative ai token che li attivano, cioè l'input corrente. Per quanto ne sappiamo, questo è il primo esempio di meccanismi specializzati nella rimozione (piuttosto che nell'aggiunta) di informazioni dal flusso residuo. Con l'aumento delle dimensioni, i modelli diventano più sparsi nel senso che hanno più neuroni morti e rilevatori di token. Infine, alcuni neuroni sono posizionali: il fatto che siano attivati o meno dipende in gran parte (o esclusivamente) dalla posizione e meno (o per niente) dai dati testuali. Troviamo che i modelli più piccoli hanno insiemi di neuroni che agiscono come indicatori di intervalli di posizione, mentre i modelli più grandi operano in modo meno esplicito.
Grandi volumi di dati testuali hanno contribuito in modo significativo allo sviluppo dei grandi modelli linguistici (LLM) negli ultimi anni. Questi dati vengono tipicamente acquisiti attraverso il scraping del web, portando a dataset di pre-addestramento composti da testo web rumoroso. Fino ad oggi, gli sforzi per ridurre questi dataset a un sottoinsieme di qualità superiore si sono basati su euristiche manualmente costruite, codificate come filtri basati su regole. In questo lavoro, adottiamo una visione più ampia ed esploriamo stime scalabili della qualità dei dati che possono essere utilizzate per misurare sistematicamente la qualità dei dati di pre-addestramento. Eseguiamo un confronto rigoroso su larga scala del semplice stimatore di qualità dei dati basato sulla perplessità, nonché di stime più sofisticate e computazionalmente intensive come la norma L2 dell'errore e la memorizzazione. Queste metriche vengono utilizzate per classificare e ridurre i corpora di pre-addestramento, e successivamente confrontiamo i LLM addestrati su questi dataset ridotti. Sorprendentemente, scopriamo che la semplice tecnica della perplessità supera i nostri metodi di punteggio più costosi dal punto di vista computazionale. Miglioriamo rispetto alla nostra baseline senza riduzione, addestrando su appena il 30% del dataset di addestramento originale. Il nostro lavoro getta le basi per strategie inesplorate nella cura automatica di corpora di alta qualità e suggerisce che la maggior parte dei dati di pre-addestramento può essere rimossa mantenendo le prestazioni.
I Transformer sono diventati il modello dominante nel deep learning, ma le ragioni della loro superiorità prestazionale sono poco comprese. Qui ipotizziamo che le elevate prestazioni dei Transformer derivino da un bias architetturale verso la mesa-ottimizzazione, un processo appreso che opera durante il forward pass di un modello e consiste nei seguenti due passaggi: (i) la costruzione di un obiettivo di apprendimento interno e (ii) la sua soluzione corrispondente trovata attraverso l'ottimizzazione. Per testare questa ipotesi, abbiamo analizzato in modo inverso una serie di Transformer autoregressivi addestrati su semplici task di modellazione di sequenze, scoprendo algoritmi di mesa-ottimizzazione basati su gradienti che guidano la generazione delle previsioni. Inoltre, dimostriamo che l'algoritmo di ottimizzazione appreso durante il forward pass può essere immediatamente riutilizzato per risolvere task supervisionati few-shot, suggerendo che la mesa-ottimizzazione potrebbe essere alla base delle capacità di apprendimento in-context dei grandi modelli linguistici. Infine, proponiamo un nuovo livello di self-attention, il mesa-layer, che risolve in modo esplicito ed efficiente problemi di ottimizzazione specificati nel contesto. Riscontriamo che questo livello può portare a miglioramenti nelle prestazioni in esperimenti sintetici e preliminari di modellazione linguistica, rafforzando la nostra ipotesi che la mesa-ottimizzazione sia un'operazione importante nascosta nei pesi dei Transformer addestrati.
I Large Language Models (LLMs) hanno dimostrato capacità eccezionali nell'esecuzione di compiti legati al linguaggio. Tuttavia, il loro dispiegamento presenta sfide significative a causa dei considerevoli requisiti di memoria e archiviazione. In risposta a questo problema, la quantizzazione solo dei pesi, in particolare la quantizzazione a 3 e 4 bit solo dei pesi, è emersa come una delle soluzioni più valide. Man mano che il numero di bit diminuisce, la griglia di quantizzazione si amplia, sottolineando così l'importanza dell'arrotondamento verso l'alto e verso il basso. Mentre studi precedenti hanno dimostrato che il fine-tuning dell'arrotondamento verso l'alto e verso il basso con l'aggiunta di perturbazioni può migliorare l'accuratezza in alcuni scenari, il nostro studio è guidato dal confine preciso e limitato di queste perturbazioni, dove solo la soglia per alterare il valore di arrotondamento è significativa. Di conseguenza, proponiamo un approccio conciso e altamente efficace per ottimizzare il compito di arrotondamento dei pesi. Il nostro metodo, denominato SignRound, prevede un tuning leggero a blocchi utilizzando la discesa del gradiente con segno, consentendoci di ottenere risultati eccezionali entro 400 passaggi. SignRound supera il baseline consolidato dell'arrotondamento al più vicino (RTN) e compete in modo impressionante con i metodi recenti, senza introdurre ulteriori sovraccarichi di inferenza. Il codice sorgente sarà presto disponibile pubblicamente all'indirizzo https://github.com/intel/neural-compressor.
I modelli audio-linguistici apprendono congiuntamente rappresentazioni multimodali di testo e audio che abilitano l'inferenza Zero-Shot. I modelli si basano sugli encoder per creare rappresentazioni potenti dell'input e generalizzare a molteplici task, che vanno dai suoni, alla musica e al parlato. Sebbene i modelli abbiano raggiunto prestazioni notevoli, esiste ancora un divario di prestazioni rispetto ai modelli specifici per task. In questo articolo, proponiamo un modello di Contrastive Language-Audio Pretraining pre-addestrato su una raccolta diversificata di 4,6 milioni di coppie audio-testo, impiegando due encoder innovativi per l'inferenza Zero-Shot. Per apprendere rappresentazioni audio, abbiamo addestrato un encoder audio su 22 task audio, anziché sul tradizionale addestramento per la classificazione di eventi sonori. Per apprendere rappresentazioni linguistiche, abbiamo addestrato un modello autoregressivo decoder-only, anziché i tradizionali modelli encoder-only. Successivamente, le rappresentazioni audio e linguistiche vengono portate in uno spazio multimodale congiunto utilizzando il Contrastive Learning. Abbiamo utilizzato i nostri encoder per migliorare le prestazioni downstream in modo significativo. Abbiamo valutato estensivamente la generalizzazione delle nostre rappresentazioni su 26 task downstream, il più ampio nella letteratura. Il nostro modello raggiunge risultati all'avanguardia in diversi task, aprendo la strada verso rappresentazioni audio di uso generale.
L'integrazione di asset mesh poligonali all'interno di volumi Neural Radiance Fields (NeRF) fotorealistici, in modo che possano essere renderizzati e le loro dinamiche simulate in maniera fisicamente coerente con il NeRF, è un ambito poco esplorato dal punto di vista sistemico dell'integrazione del NeRF nel tradizionale pipeline grafico. Questo articolo progetta un accoppiamento bidirezionale tra mesh e NeRF durante il rendering e la simulazione. Inizialmente, esaminiamo le equazioni del trasporto della luce sia per la mesh che per il NeRF, per poi distillarle in un algoritmo efficiente per aggiornare la radianza e il throughput lungo un raggio lanciato con un numero arbitrario di rimbalzi. Per risolvere la discrepanza tra lo spazio colore lineare assunto dal path tracer e lo spazio colore sRGB utilizzato dal NeRF standard, addestriamo il NeRF con immagini High Dynamic Range (HDR). Presentiamo inoltre una strategia per stimare le sorgenti luminose e proiettare ombre sul NeRF. Infine, consideriamo come la formulazione ibrida superficie-volumetrica possa essere efficientemente integrata con un simulatore fisico ad alte prestazioni che supporta tessuti, corpi rigidi e morbidi. L'intero sistema di rendering e simulazione può essere eseguito su una GPU a velocità interattive. Dimostriamo che un approccio ibrido supera le alternative in termini di realismo visivo per l'inserimento di mesh, poiché consente un trasporto realistico della luce dai mezzi volumetrici NeRF sulle superfici, influenzando l'aspetto delle superfici riflettenti/rifrangenti e l'illuminazione delle superfici diffuse informate dalla scena dinamica.
I paradigmi di apprendimento per i grandi modelli linguistici (LLM) attualmente tendono a rientrare nell'apprendimento in contesto (ICL) o nella messa a punto completa (fine-tuning). Ciascuno di questi approcci presenta dei compromessi basati sui dati disponibili, sulla dimensione del modello, sui costi computazionali, sulla facilità d'uso e sulla qualità finale, senza che nessuna soluzione si dimostri ottimale in tutte le situazioni. In questo articolo, descriviamo prima i paradigmi ICL e fine-tuning in modo da evidenziare le loro connessioni naturali. Sulla base di queste connessioni, proponiamo un nuovo paradigma di apprendimento chiamato FIAT che combina il meglio di questi approcci, consentendo l'uso di istruzioni ingegnerizzate tramite prompt e il ragionamento a catena di pensiero (chain-of-thought) con i modelli più grandi, mentre utilizza metodi simili per aggiornare i parametri di un LLM di dimensioni moderate con una messa a punto efficiente dei parametri. Valutiamo l'efficacia di FIAT su una varietà di task multilingue e osserviamo che FIAT supera sia ICL che fine-tuning su scale che vanno da 100 a 10.000 esempi di addestramento. Speriamo che FIAT offra un modo pratico per sfruttare appieno il potenziale degli LLM senza dover fare una scelta difficile tra i paradigmi di apprendimento.