Articoli di ricerca IA selezionati quotidianamente con traduzioni
Nel potenziare le capacità di ragionamento dei grandi modelli linguistici (LLM), la ricerca precedente si è concentrata principalmente su tecniche specifiche di prompting, come il few-shot o il zero-shot chain-of-thought (CoT) prompting. Questi metodi, sebbene efficaci, spesso richiedono un'ingegnerizzazione manuale intensiva dei prompt. Il nostro studio adotta un approccio innovativo ponendo la domanda: gli LLM possono ragionare efficacemente senza prompting? I nostri risultati rivelano che, in modo intrigante, i percorsi di ragionamento CoT possono essere elicitati da LLM pre-addestrati semplicemente modificando il processo di decodifica. Piuttosto che utilizzare la decodifica greedy convenzionale, abbiamo investigato i token alternativi top-k, scoprendo che i percorsi CoT sono spesso intrinseci in queste sequenze. Questo approccio non solo evita le complicazioni del prompting, ma ci permette anche di valutare le capacità di ragionamento intrinseche degli LLM. Inoltre, osserviamo che la presenza di un CoT nel percorso di decodifica è correlata a una maggiore confidenza nella risposta decodificata dal modello. Questa metrica di confidenza differenzia efficacemente tra percorsi CoT e non-CoT. Studi empirici estesi su vari benchmark di ragionamento dimostrano che la CoT-decoding proposta supera sostanzialmente la decodifica greedy standard.
Tutti i problemi linguistici basati su testo possono essere ridotti a generazione o embedding. I modelli attuali riescono a eccellere solo in uno dei due ambiti. Introduciamo il "generative representational instruction tuning" (GRIT), con cui un modello linguistico di grandi dimensioni viene addestrato a gestire sia compiti generativi che di embedding, distinguendoli attraverso istruzioni. Rispetto ad altri modelli open, il nostro GritLM 7B stabilisce un nuovo stato dell'arte sul Massive Text Embedding Benchmark (MTEB) e supera tutti i modelli di dimensioni simili in una gamma di compiti generativi. Scalando ulteriormente, GritLM 8x7B supera tutti i modelli linguistici generativi open che abbiamo testato, rimanendo comunque tra i migliori modelli di embedding. È interessante notare che GRIT eguaglia l'addestramento su soli dati generativi o di embedding, consentendo di unificarli senza perdita di prestazioni. Tra gli altri vantaggi, l'unificazione tramite GRIT accelera il Retrieval-Augmented Generation (RAG) di oltre il 60% per documenti lunghi, eliminando la necessità di modelli separati per il recupero e la generazione. Modelli, codice e altro sono disponibili liberamente su https://github.com/ContextualAI/gritlm.
L'addestramento di modelli linguistici di grandi dimensioni (LLM) è costoso. In questo articolo, studiamo approcci efficienti dal punto di vista dei dati per il pre-addestramento degli LLM, ovvero tecniche che mirano a ottimizzare la frontiera di Pareto tra la qualità del modello e il consumo di risorse/dati durante l'addestramento. Cerchiamo di comprendere i compromessi associati alle routine di selezione dei dati basate su (i) stime della qualità dei dati costose da calcolare e (ii) massimizzazione della copertura e misure basate sulla diversità nello spazio delle caratteristiche. La nostra prima tecnica, Ask-LLM, sfrutta le capacità di ragionamento zero-shot di LLM addestrati su istruzioni per valutare direttamente la qualità di un esempio di addestramento. Per puntare alla copertura, proponiamo il campionamento Density, che modella la distribuzione dei dati per selezionare un campione diversificato. Nel nostro confronto di 19 metodi di campionamento, che coinvolge centinaia di task di valutazione e sessioni di pre-addestramento, scopriamo che Ask-LLM e Density sono i migliori metodi nelle rispettive categorie. Il campionamento basato sulla copertura può recuperare le prestazioni dei dati completi, mentre i modelli addestrati sui dati selezionati da Ask-LLM superano costantemente l'addestramento con tutti i dati, anche quando rifiutiamo il 90% del dataset originale, convergendo fino al 70% più velocemente.
Gli attuali Modelli Linguistici di Grande Dimensione (LLM) non solo sono limitati da una lunghezza massima del contesto, ma non sono nemmeno in grado di elaborare in modo robusto input lunghi. Per affrontare queste limitazioni, proponiamo ReadAgent, un sistema di agenti LLM che aumenta la lunghezza effettiva del contesto fino a 20 volte nei nostri esperimenti. Ispirati dal modo in cui gli esseri umani leggono interattivamente documenti lunghi, implementiamo ReadAgent come un semplice sistema di prompt che utilizza le avanzate capacità linguistiche degli LLM per (1) decidere quali contenuti memorizzare insieme in un episodio di memoria, (2) comprimere tali episodi di memoria in brevi memorie episodiche chiamate memorie essenziali (gist memories), e (3) intraprendere azioni per cercare passaggi nel testo originale se ReadAgent ha bisogno di ricordarsi dettagli rilevanti per completare un compito. Valutiamo ReadAgent confrontandolo con baseline che utilizzano metodi di recupero, che utilizzano i contesti lunghi originali e che utilizzano le memorie essenziali. Queste valutazioni vengono eseguite su tre compiti di comprensione della lettura di documenti lunghi: QuALITY, NarrativeQA e QMSum. ReadAgent supera le baseline in tutti e tre i compiti, estendendo la finestra del contesto effettivo di 3-20 volte.
Recenti lavori hanno dimostrato l'enorme potenziale dei dataset generati sinteticamente per l'addestramento di grandi modelli linguistici (LLM), in particolare per l'acquisizione di competenze mirate. Gli attuali dataset su larga scala per il tuning delle istruzioni matematiche, come MetaMathQA (Yu et al., 2024) e MAmmoTH (Yue et al., 2024), sono costruiti utilizzando output di LLM proprietari con licenze commercialmente restrittive. Un motivo chiave che limita l'uso di LLM open-source in queste pipeline di generazione di dati è stato il divario significativo tra le competenze matematiche dei migliori LLM proprietari, come GPT-4, e i migliori LLM open-source. Basandoci sui recenti progressi nei LLM open-source, sulla nostra proposta innovativa di prompting e su un certo scaling di forza bruta, abbiamo costruito OpenMathInstruct-1, un dataset per il tuning delle istruzioni matematiche con 1,8 milioni di coppie problema-soluzione. Il dataset è stato costruito sintetizzando soluzioni tramite interprete di codice per GSM8K e MATH, due popolari benchmark di ragionamento matematico, utilizzando il modello Mixtral, recentemente rilasciato e con licenza permissiva. Il nostro miglior modello, OpenMath-CodeLlama-70B, addestrato su un sottoinsieme di OpenMathInstruct-1, raggiunge un punteggio dell'84,6% su GSM8K e del 50,7% su MATH, risultando competitivo con i migliori modelli distillati da GPT. Rilasciamo il nostro codice, i modelli e il dataset OpenMathInstruct-1 sotto una licenza commercialmente permissiva.
Il fine-tuning dei modelli di diffusione rimane una frontiera poco esplorata nell'intelligenza artificiale generativa (GenAI), soprattutto se confrontata con i notevoli progressi ottenuti nel fine-tuning dei Large Language Models (LLM). Mentre modelli all'avanguardia come Stable Diffusion (SD) e SDXL si basano su un fine-tuning supervisionato, le loro prestazioni inevitabilmente raggiungono un plateau dopo aver elaborato un certo volume di dati. Recentemente, il reinforcement learning (RL) è stato utilizzato per ottimizzare i modelli di diffusione con dati di preferenza umana, ma richiede almeno due immagini (una "vincitrice" e una "perdente") per ogni prompt di testo. In questo articolo, introduciamo una tecnica innovativa chiamata self-play fine-tuning per modelli di diffusione (SPIN-Diffusion), in cui il modello di diffusione compete con le sue versioni precedenti, facilitando un processo iterativo di auto-miglioramento. Il nostro approccio offre un'alternativa alle tradizionali strategie di fine-tuning supervisionato e RL, migliorando significativamente sia le prestazioni del modello che l'allineamento. I nostri esperimenti sul dataset Pick-a-Pic rivelano che SPIN-Diffusion supera il metodo di fine-tuning supervisionato esistente in termini di allineamento alle preferenze umane e appeal visivo già dalla prima iterazione. Entro la seconda iterazione, supera le prestazioni dei metodi basati su RLHF in tutte le metriche, raggiungendo questi risultati con meno dati.
Studiamo la ricetta per il preaddestramento continuo per scalare la lunghezza del contesto dei modelli linguistici fino a 128K, con un focus sull'ingegneria dei dati. Ipotesizziamo che la modellazione di contesti lunghi, in particolare la capacità di utilizzare informazioni in posizioni arbitrarie dell'input, sia una capacità già in gran parte acquisita attraverso il preaddestramento su larga scala, e che questa capacità possa essere facilmente estesa a contesti sostanzialmente più lunghi di quelli osservati durante l'addestramento (ad esempio, da 4K a 128K) attraverso un preaddestramento continuo leggero su una miscela di dati appropriata. Investigiamo la quantità e la qualità dei dati per il preaddestramento continuo: (1) per la quantità, dimostriamo che da 500 milioni a 5 miliardi di token sono sufficienti per consentire al modello di recuperare informazioni ovunque all'interno del contesto di 128K; (2) per la qualità, i nostri risultati enfatizzano ugualmente l'equilibrio del dominio e il campionamento di lunghezze maggiori. Nello specifico, troviamo che il campionamento ingenuo di dati più lunghi su determinati domini come i libri, una pratica comune dei lavori esistenti, fornisce prestazioni subottimali, e che una miscela bilanciata di domini è importante. Dimostriamo che il preaddestramento continuo dell'intero modello su 1-5 miliardi di token di tali dati è una strategia efficace e conveniente per scalare la lunghezza del contesto dei modelli linguistici a 128K. La nostra ricetta supera i forti modelli open-source a contesto lungo e riduce il divario rispetto ai modelli all'avanguardia come GPT-4 128K.
I Large Language Model (LLM) vengono tipicamente addestrati in due fasi: pre-training su grandi dataset di scala internet e fine-tuning per task specifici. Considerando il maggiore fabbisogno computazionale del pre-training, è intuitivo assumere che il fine-tuning aggiunga meno nuove informazioni al modello, rendendolo quindi più comprimibile. Esploriamo questa ipotesi scomponendo i pesi dei modelli fine-tunati nei loro componenti pre-addestrati e in un delta aggiuntivo. Introduciamo un metodo semplice, BitDelta, che quantizza con successo questo delta fino a 1 bit senza compromettere le prestazioni. Questo interessante risultato non solo evidenzia la potenziale ridondanza delle informazioni aggiunte durante il fine-tuning, ma ha anche implicazioni significative per il servizio multi-tenant e lo storage multi-tenant dei modelli fine-tunati. Consentendo l'uso di un singolo modello base ad alta precisione accompagnato da più delta a 1 bit, BitDelta riduce drasticamente i requisiti di memoria GPU di oltre 10 volte, il che può tradursi anche in una latenza di generazione migliorata in contesti multi-tenant. Validiamo BitDelta attraverso esperimenti sulle famiglie di modelli Llama-2 e Mistral, e su modelli fino a 70 miliardi di parametri, dimostrando un degrado minimo delle prestazioni in tutte le configurazioni testate.
La modifica di segnali utilizzando modelli pre-addestrati di grandi dimensioni, in modalità zero-shot, ha recentemente registrato rapidi progressi nel dominio delle immagini. Tuttavia, questa tendenza non ha ancora raggiunto il dominio audio. In questo articolo, esploriamo due tecniche di modifica zero-shot per segnali audio, che utilizzano l'inversione DDPM su modelli di diffusione pre-addestrati. La prima, adottata dal dominio delle immagini, consente la modifica basata su testo. La seconda è un approccio innovativo per scoprire direzioni di modifica semanticamente significative senza supervisione. Quando applicato a segnali musicali, questo metodo rivela una gamma di modifiche musicalmente interessanti, dal controllo della partecipazione di strumenti specifici a improvvisazioni sulla melodia. È possibile trovare esempi sulla nostra pagina di esempi all'indirizzo https://hilamanor.github.io/AudioEditing/ e il codice è disponibile all'indirizzo https://github.com/hilamanor/AudioEditing/.
I progressi nel 3D Gaussian Splatting hanno accelerato significativamente la ricostruzione e la generazione 3D. Tuttavia, questo approccio può richiedere un numero elevato di Gaussiane, il che comporta un'impronta di memoria considerevole. Questo articolo introduce GES (Generalized Exponential Splatting), una nuova rappresentazione che utilizza la Funzione Esponenziale Generalizzata (GEF) per modellare scene 3D, richiedendo un numero molto inferiore di particelle per rappresentare una scena e superando così significativamente i metodi basati su Gaussian Splatting in termini di efficienza, con la capacità di sostituzione plug-and-play per strumenti basati su Gaussiane. GES è validato sia teoricamente che empiricamente sia in configurazioni 1D di principio che in scene 3D realistiche. È dimostrato che GES rappresenta con maggiore precisione i segnali con bordi netti, che tipicamente rappresentano una sfida per le Gaussiane a causa delle loro caratteristiche intrinseche di filtro passa-basso. La nostra analisi empirica dimostra che GEF supera le Gaussiane nell'adattamento a segnali naturali (ad esempio, quadrati, triangoli e segnali parabolici), riducendo così la necessità di operazioni di splitting estensive che aumentano l'impronta di memoria del Gaussian Splatting. Con l'aiuto di una funzione di perdita modulata in frequenza, GES raggiunge prestazioni competitive nei benchmark di sintesi di nuove viste, richiedendo meno della metà della memoria di archiviazione rispetto al Gaussian Splatting e aumentando la velocità di rendering fino al 39%. Il codice è disponibile sul sito web del progetto https://abdullahamdi.com/ges.
L'obiettivo della personalizzazione da testo a immagine (T2I) è adattare un modello di diffusione a un concetto di riferimento fornito dall'utente, generando immagini diverse del concetto allineate con le indicazioni testuali specificate. I metodi convenzionali, che rappresentano i concetti di riferimento utilizzando incorporamenti testuali unici, spesso non riescono a replicare accuratamente l'aspetto del riferimento. Per affrontare questo problema, una possibile soluzione è condizionare esplicitamente le immagini di riferimento nel processo di denoising target, noto come sostituzione chiave-valore. Tuttavia, i lavori precedenti sono limitati a modifiche locali poiché interrompono il percorso strutturale del modello T2I pre-addestrato. Per superare questa limitazione, proponiamo un nuovo metodo plug-in, chiamato DreamMatcher, che riformula la personalizzazione T2I come un problema di corrispondenza semantica. Nello specifico, DreamMatcher sostituisce i valori target con valori di riferimento allineati tramite corrispondenza semantica, mantenendo invariato il percorso strutturale per preservare la capacità versatile dei modelli T2I pre-addestrati di generare strutture diverse. Introduciamo inoltre una strategia di mascheramento semantico-consistente per isolare il concetto personalizzato dalle regioni irrilevanti introdotte dalle indicazioni testuali. Compatibile con i modelli T2I esistenti, DreamMatcher mostra miglioramenti significativi in scenari complessi. Analisi approfondite dimostrano l'efficacia del nostro approccio.
Il ragionamento a partire da sequenze di dati sensoriali grezzi è un problema ubiquitario in campi che spaziano dai dispositivi medici alla robotica. Questi problemi spesso implicano l'uso di lunghe sequenze di dati grezzi provenienti da sensori (ad esempio, magnetometri, piezoresistori) per prevedere sequenze di quantità fisiche desiderabili (ad esempio, forza, misurazioni inerziali). Sebbene gli approcci classici siano potenti per problemi di previsione localmente lineari, spesso si rivelano insufficienti quando si utilizzano sensori del mondo reale. Questi sensori sono tipicamente non lineari, influenzati da variabili estranee (ad esempio, vibrazioni) e mostrano deriva dipendente dai dati. Per molti problemi, il compito di previsione è aggravato dalla presenza di piccoli dataset etichettati, poiché ottenere etichette di verità richiede attrezzature costose. In questo lavoro, presentiamo i Modelli a Spazio degli Stati Gerarchici (HiSS), una nuova tecnica concettualmente semplice per la previsione sequenziale continua. HiSS impila modelli a spazio degli stati strutturati uno sopra l'altro per creare una gerarchia temporale. Su sei dataset di sensori del mondo reale, dalla previsione dello stato basata su sensori tattili alle misurazioni inerziali basate su accelerometri, HiSS supera i modelli di sequenza all'avanguardia come i Transformer causali, le LSTMs, S4 e Mamba di almeno il 23% sull'MSE. I nostri esperimenti indicano inoltre che HiSS dimostra una scalabilità efficiente su dataset più piccoli ed è compatibile con le tecniche esistenti di filtraggio dei dati. Codice, dataset e video sono disponibili su https://hiss-csp.github.io.
I modelli di diffusione sono stati recentemente applicati sempre più frequentemente a dati temporali come video, simulazioni di meccanica dei fluidi o dati climatici. Questi metodi generalmente trattano i fotogrammi successivi in modo uguale per quanto riguarda la quantità di rumore nel processo di diffusione. Questo articolo esplora la Rolling Diffusion: un nuovo approccio che utilizza un processo di denoising a finestra scorrevole. Esso garantisce che il processo di diffusione corrompa progressivamente nel tempo assegnando più rumore ai fotogrammi che compaiono più avanti in una sequenza, riflettendo una maggiore incertezza sul futuro man mano che il processo di generazione si svolge. Empiricamente, dimostriamo che quando le dinamiche temporali sono complesse, la Rolling Diffusion è superiore alla diffusione standard. In particolare, questo risultato è dimostrato in un compito di previsione video utilizzando il dataset video Kinetics-600 e in un esperimento di previsione di dinamiche dei fluidi caotiche.