Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo Llemma, un modello linguistico su larga scala per la matematica. Abbiamo continuato il pre-addestramento di Code Llama sul Proof-Pile-2, una miscela di articoli scientifici, dati web contenenti matematica e codice matematico, ottenendo così Llemma. Sul benchmark MATH, Llemma supera tutti i modelli base open conosciuti, nonché la suite di modelli Minerva non ancora rilasciata, su una base equi-parametrica. Inoltre, Llemma è in grado di utilizzare strumenti e di dimostrare teoremi formali senza ulteriori aggiustamenti. Rilasciamo apertamente tutti gli artefatti, inclusi i modelli da 7 miliardi e 34 miliardi di parametri, il Proof-Pile-2 e il codice per replicare i nostri esperimenti.
I grandi modelli linguistici (LM) vengono attualmente addestrati a prevedere i token dati i prefissi dei documenti, consentendo loro di eseguire direttamente la generazione di testi lunghi e compiti di prompting che possono essere ridotti al completamento di documenti. Le pipeline di pre-addestramento esistenti addestrano i LM concatenando insiemi casuali di documenti brevi per creare contesti di input, ma i documenti precedenti non forniscono alcun segnale per prevedere il documento successivo. Presentiamo invece l'In-Context Pretraining, un nuovo approccio in cui i modelli linguistici vengono pre-addestrati su una sequenza di documenti correlati, incoraggiandoli esplicitamente a leggere e ragionare oltre i confini dei documenti. Possiamo eseguire l'In-Context Pretraining semplicemente modificando l'ordinamento dei documenti in modo che ogni contesto contenga documenti correlati e applicando direttamente le pipeline di pre-addestramento esistenti. Tuttavia, questo problema di ordinamento dei documenti è complesso. Ci sono miliardi di documenti e vorremmo che l'ordinamento massimizzi la similarità contestuale per ogni documento senza ripetere alcun dato. Per fare ciò, introduciamo algoritmi approssimati per trovare documenti correlati con una ricerca efficiente dei vicini più prossimi e per costruire contesti di input coerenti con un algoritmo di attraversamento di grafi. I nostri esperimenti mostrano che l'In-Context Pretraining offre un approccio semplice e scalabile per migliorare significativamente le prestazioni dei LM: osserviamo notevoli miglioramenti nei compiti che richiedono un ragionamento contestuale più complesso, tra cui l'apprendimento in-context (+8%), la comprensione della lettura (+15%), la fedeltà ai contesti precedenti (+16%), il ragionamento su contesti lunghi (+5%) e l'augmentation con il recupero di informazioni (+9%).
I grandi modelli linguistici hanno dimostrato le loro straordinarie capacità come interfaccia generale per varie applicazioni legate al linguaggio. Motivati da ciò, ci proponiamo di costruire un'interfaccia unificata per completare numerosi compiti di visione e linguaggio, tra cui la descrizione di immagini, la risposta a domande visive e il grounding visivo, tra gli altri. La sfida consiste nell'utilizzare un singolo modello per eseguire efficacemente compiti diversificati di visione e linguaggio con semplici istruzioni multimodali. Verso questo obiettivo, introduciamo MiniGPT-v2, un modello che può essere considerato come un'interfaccia unificata per gestire meglio vari compiti di visione e linguaggio. Proponiamo l'uso di identificatori unici per diversi compiti durante l'addestramento del modello. Questi identificatori consentono al nostro modello di distinguere facilmente ogni istruzione di compito e migliorano anche l'efficienza di apprendimento del modello per ciascun compito. Dopo l'addestramento in tre fasi, i risultati sperimentali mostrano che MiniGPT-v2 raggiunge prestazioni solide su molti benchmark di risposta a domande visive e grounding visivo rispetto ad altri modelli generalisti di visione e linguaggio. Il nostro modello e i codici sono disponibili all'indirizzo https://minigpt-v2.github.io/
Un framework robotico interattivo realizza la pianificazione di compiti a lungo termine e può facilmente generalizzare a nuovi obiettivi o compiti distinti, anche durante l'esecuzione. Tuttavia, la maggior parte dei metodi tradizionali richiede una progettazione modulare predefinita, il che rende difficile generalizzare a obiettivi diversi. I recenti approcci basati su modelli linguistici di grandi dimensioni consentono una pianificazione più aperta, ma spesso richiedono un'ingegnerizzazione complessa dei prompt o modelli preaddestrati specifici per dominio. Per affrontare questo problema, proponiamo un framework semplice che realizza la pianificazione interattiva dei compiti utilizzando modelli linguistici. Il nostro sistema incorpora sia la pianificazione di alto livello che l'esecuzione di funzioni di basso livello tramite il linguaggio. Verifichiamo la robustezza del nostro sistema nella generazione di istruzioni di alto livello per obiettivi non visti e la sua facilità di adattamento a compiti diversi semplicemente sostituendo le linee guida del compito, senza la necessità di un'ulteriore complessa ingegnerizzazione dei prompt. Inoltre, quando l'utente invia una nuova richiesta, il nostro sistema è in grado di ripianificare con precisione in base alla nuova richiesta, alle linee guida del compito e ai passaggi precedentemente eseguiti. Per maggiori dettagli, consultate https://wuphilipp.github.io/itp_site e https://youtu.be/TrKLuyv26_g.
Sebbene i grandi modelli linguistici si siano dimostrati efficaci in un'ampia gamma di applicazioni downstream, spesso generano testi problematici o privi di un attributo desiderato. In questo articolo, introduciamo il Decodifica Aumentata da Ricompensa (Reward-Augmented Decoding, RAD), una procedura di generazione di testo che utilizza un piccolo modello di ricompensa unidirezionale per incoraggiare un modello linguistico a generare testi con determinate proprietà. Nello specifico, RAD utilizza il modello di ricompensa per valutare le generazioni man mano che vengono prodotte e ridimensiona le probabilità di campionamento per favorire token ad alta ricompensa. Utilizzando un modello di ricompensa unidirezionale, RAD può memorizzare nella cache le attivazioni dei passi di generazione precedenti per ridurre il sovraccarico computazionale. Attraverso esperimenti sulla generazione di testi non tossici e controllati dal punto di vista del sentimento, dimostriamo che RAD si comporta meglio tra i metodi che modificano solo la procedura di generazione e raggiunge le prestazioni dei metodi all'avanguardia che implicano il riaddestramento del modello linguistico. Validiamo inoltre che RAD è efficace su modelli linguistici molto grandi, con un sovraccarico computazionale minimo.
Siamo interessati a abilitare la pianificazione visiva per compiti complessi a lungo termine nello spazio di video e linguaggio generati, sfruttando i recenti progressi nei modelli generativi su larga scala pre-addestrati su dati di livello Internet. A tal fine, presentiamo la pianificazione video-linguaggio (VLP), un algoritmo che consiste in una procedura di ricerca ad albero, in cui addestriamo (i) modelli visione-linguaggio per fungere sia da politiche che da funzioni di valore, e (ii) modelli testo-video come modelli dinamici. VLP prende in input un'istruzione per un compito a lungo termine e un'osservazione immagine corrente, e restituisce un piano video dettagliato che fornisce specifiche multimodali (video e linguaggio) che descrivono come completare il compito finale. VLP scala con l'aumento del budget computazionale, dove più tempo di calcolo si traduce in piani video migliorati, ed è in grado di sintetizzare piani video a lungo termine in diversi domini robotici: dal riordinamento di più oggetti, alla manipolazione abile con due bracci e più telecamere. I piani video generati possono essere tradotti in azioni reali del robot tramite politiche condizionate all'obiettivo, condizionate su ciascun fotogramma intermedio del video generato. Gli esperimenti mostrano che VLP migliora sostanzialmente i tassi di successo dei compiti a lungo termine rispetto ai metodi precedenti, sia su robot simulati che reali (attraverso 3 piattaforme hardware).
Studiamo la distillazione di dati per task di apprendimento automatico auto-regressivi, in cui l'input e l'output hanno una struttura causale strettamente da sinistra a destra. Più specificamente, proponiamo Farzi, che sintetizza un dataset di sequenze di eventi in un numero ridotto di sequenze sintetiche -- i Dati Farzi -- ottimizzati per mantenere (se non migliorare) le prestazioni del modello rispetto all'addestramento sul dataset completo. Internamente, Farzi esegue la distillazione dei dati in modo efficiente in termini di memoria (i) derivando una differenziazione in modalità inversa efficiente dell'ottimizzatore Adam sfruttando i Prodotti Hessiano-Vettore; e (ii) fattorizzando lo spazio degli eventi discreto ad alta dimensionalità in uno spazio latente che promuove in modo dimostrabile una regolarizzazione implicita. Empiricamente, per task di raccomandazione sequenziale e modellazione del linguaggio, siamo in grado di raggiungere il 98-120% delle prestazioni ottenute con il dataset completo quando addestriamo modelli all'avanguardia sui Dati Farzi di dimensioni pari a solo lo 0,1% del dataset originale. È degno di nota che la possibilità di addestrare modelli migliori con significativamente meno dati getta luce sulla progettazione di futuri modelli auto-regressivi di grandi dimensioni e apre nuove opportunità per scalare ulteriormente le dimensioni dei modelli e dei dati.
I formati di dati a bit-width ridotto sono fondamentali per ridurre i costi computazionali e di archiviazione delle moderne applicazioni di deep learning. Questo articolo valuta i formati di dati Microscaling (MX), che combinano un fattore di scalatura per blocco con tipi a virgola mobile e interi a bit ridotti per i singoli elementi. I formati MX bilanciano le esigenze concorrenti di efficienza hardware, accuratezza del modello e attrito per l'utente. I risultati empirici su oltre due dozzine di benchmark dimostrano la praticità dei formati MX come sostituto diretto del formato FP32 di base per l'inferenza e l'addestramento AI con un basso attrito per l'utente. Mostriamo inoltre il primo esempio di addestramento di modelli linguistici generativi con pesi, attivazioni e gradienti a meno di 8 bit, con una perdita minima di accuratezza e senza modifiche alla procedura di addestramento.
Nonostante il loro successo in molti compiti di elaborazione del linguaggio naturale, risolvere problemi matematici rimane una sfida significativa per i grandi modelli linguistici (LLM). Esiste un ampio divario tra le prestazioni pass-at-one e pass-at-N degli LLM nella risoluzione di problemi matematici, suggerendo che gli LLM potrebbero essere vicini a trovare soluzioni corrette, il che motiva la nostra esplorazione di metodi di fine-tuning per sbloccare le prestazioni degli LLM. Utilizzando il complesso dataset MATH, investigiamo tre strategie di fine-tuning: (1) fine-tuning delle soluzioni, in cui addestriamo il modello per generare una soluzione dettagliata per un dato problema matematico; (2) riordinamento dei cluster di soluzioni, in cui l'LLM viene addestrato come verificatore/valutatore di soluzioni per scegliere tra cluster di soluzioni generate; (3) fine-tuning sequenziale multi-task, che integra efficientemente sia la generazione che la valutazione delle soluzioni per migliorare le prestazioni dell'LLM. Con questi metodi, presentiamo uno studio empirico approfondito su una serie di modelli PaLM 2 e scopriamo: (1) La qualità e lo stile delle soluzioni passo-passo utilizzate per il fine-tuning possono avere un impatto significativo sulle prestazioni del modello; (2) Sebbene il riordinamento delle soluzioni e il voto a maggioranza siano entrambi efficaci per migliorare le prestazioni del modello quando usati separatamente, possono anche essere utilizzati insieme per un ulteriore incremento delle prestazioni; (3) Il fine-tuning multi-task che separa sequenzialmente i compiti di generazione e valutazione delle soluzioni può offrire prestazioni migliorate rispetto al baseline di fine-tuning delle soluzioni. Guidati da queste intuizioni, progettiamo una ricetta di fine-tuning che raggiunge circa il 58,8% di accuratezza sul dataset MATH con modelli PaLM 2-L fine-tuned, un miglioramento dell'11,2% rispetto alle prestazioni few-shot del modello pre-addestrato PaLM 2-L con voto a maggioranza.
La sintesi di invarianti induttivi per cicli è fondamentale per automatizzare la verifica dei programmi. In questo lavoro, osserviamo che i Large Language Model (come gpt-3.5 o gpt-4) sono in grado di sintetizzare invarianti per cicli per una classe di programmi in un contesto zero-shot, ma richiedono diversi campioni per generare gli invarianti corretti. Ciò può portare a un numero elevato di chiamate a un verificatore di programmi per stabilire un invariante. Per affrontare questo problema, proponiamo un approccio di {\it riordinamento} per i risultati generati dai LLM. Abbiamo progettato un sistema di ordinamento in grado di distinguere tra invarianti induttivi corretti e tentativi errati basandosi sulla definizione del problema. Il sistema di ordinamento è ottimizzato come un ranker contrastivo. I risultati sperimentali dimostrano che questo meccanismo di riordinamento migliora significativamente la classificazione degli invarianti corretti tra i candidati generati, portando a una riduzione notevole del numero di chiamate a un verificatore.
Investighiamo le capacità dei modelli linguistici di grandi dimensioni basati su trasformatori (LLM) in compiti di ragionamento relazionale che coinvolgono simboli astratti. Tali compiti sono stati a lungo studiati nella letteratura neuroscientifica come elementi costitutivi fondamentali per abilità più complesse nella programmazione, nella matematica e nel ragionamento verbale. Per (i) i compiti di regressione, dimostriamo che i trasformatori generalizzano quando addestrati, ma richiedono quantità sorprendentemente elevate di dati di addestramento. Per (ii) i compiti di previsione del token successivo con etichette simboliche, mostriamo una "legge di scala inversa": i trasformatori non riescono a generalizzare all'aumentare della dimensione dell'embedding. Per entrambe le impostazioni (i) e (ii), proponiamo modifiche sottili ai trasformatori che possono ridurre la quantità di dati necessari aggiungendo due parametri addestrabili per testa.