Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli linguistici (Language Models, LMs) sono diventati onnipresenti sia nella ricerca NLP che nelle offerte di prodotti commerciali. Con l'aumento della loro importanza commerciale, i modelli più potenti sono diventati chiusi, protetti da interfacce proprietarie, con dettagli cruciali sui loro dati di addestramento, architetture e sviluppo non divulgati. Considerando l'importanza di questi dettagli per lo studio scientifico di questi modelli, inclusi i loro pregiudizi e potenziali rischi, riteniamo essenziale che la comunità di ricerca abbia accesso a modelli linguistici potenti e veramente aperti. A tal fine, questo rapporto tecnico descrive la prima release di OLMo, un modello linguistico all'avanguardia e veramente aperto, insieme al suo framework per costruire e studiare la scienza della modellazione linguistica. A differenza della maggior parte degli sforzi precedenti che hanno rilasciato solo i pesi del modello e il codice di inferenza, rilasciamo OLMo e l'intero framework, inclusi i dati di addestramento e il codice di addestramento e valutazione. Speriamo che questo rilascio potenzi e rafforzi la comunità di ricerca aperta e ispiri una nuova ondata di innovazione.
I modelli linguistici sono diventati una tecnologia cruciale per affrontare un'ampia gamma di attività di elaborazione del linguaggio naturale, tuttavia molti dettagli su come sono stati sviluppati i modelli linguistici più performanti non vengono riportati. In particolare, le informazioni sui corpora di pre-addestramento sono raramente discusse: i modelli linguistici commerciali forniscono raramente informazioni sui loro dati; persino i modelli open source raramente rilasciano i dataset su cui sono addestrati o una ricetta esatta per riprodurli. Di conseguenza, è difficile condurre alcune linee di ricerca sui modelli linguistici, come comprendere come i dati di addestramento influenzino le capacità del modello e ne delineino i limiti. Per facilitare la ricerca aperta sul pre-addestramento dei modelli linguistici, rilasciamo Dolma, un corpus inglese di tre trilioni di token, costruito da una miscela diversificata di contenuti web, articoli scientifici, codice, libri di pubblico dominio, social media e materiali enciclopedici. Inoltre, rendiamo open source il nostro toolkit di curatela dei dati per consentire ulteriori esperimenti e la riproduzione del nostro lavoro. In questo rapporto, documentiamo Dolma, inclusi i suoi principi di progettazione, dettagli sulla sua costruzione e un riassunto dei suoi contenuti. Intervalliamo questo rapporto con analisi e risultati sperimentali ottenuti addestrando modelli linguistici su stati intermedi di Dolma per condividere ciò che abbiamo appreso sulle pratiche importanti di curatela dei dati, incluso il ruolo dei filtri di contenuto o qualità, la deduplicazione e il mixing di fonti multiple. Dolma è stato utilizzato per addestrare OLMo, un modello linguistico open source all'avanguardia e un framework progettato per costruire e studiare la scienza dei modelli linguistici.
Presentiamo CroissantLLM, un modello linguistico da 1,3 miliardi di parametri preaddestrato su un insieme di 3 trilioni di token in inglese e francese, con l'obiettivo di offrire alla comunità di ricerca e industriale un modello bilingue ad alte prestazioni, completamente open-source, in grado di funzionare rapidamente su hardware locale di livello consumer. A tal fine, abbiamo introdotto un approccio innovativo che prevede l'addestramento di un modello intrinsecamente bilingue con un rapporto 1:1 tra dati di preaddestramento in inglese e francese, un tokenizer personalizzato e dataset di fine-tuning bilingue. Rilasciamo il dataset di addestramento, che include una sezione in francese con fonti di dati di alta qualità, variate e curate manualmente. Per valutare le prestazioni al di fuori dell'inglese, abbiamo creato un nuovo benchmark, FrenchBench, composto da una serie di task di classificazione e generazione, che coprono vari aspetti ortogonali delle prestazioni del modello nella lingua francese. Inoltre, nell'ottica della trasparenza e per promuovere ulteriori ricerche sui Large Language Model, rilasciamo codebase, decine di checkpoint relativi a diverse dimensioni del modello, distribuzioni dei dati di addestramento e fasi di training, nonché modelli Chat fine-tuned e robusti modelli di traduzione. Valutiamo il nostro modello attraverso il framework FMTI, convalidando l'81% dei criteri di trasparenza, un risultato che supera di gran lunga anche i punteggi delle iniziative più aperte. Questo lavoro arricchisce il panorama dell'NLP, distaccandosi dai precedenti lavori centrati sull'inglese per rafforzare la nostra comprensione della multilinguità nei modelli linguistici.
Comprendere il contesto è fondamentale per comprendere il linguaggio umano, un'abilità che i Modelli Linguistici di Grande Dimensione (LLMs) hanno dimostrato sempre più in modo impressionante. Tuttavia, sebbene la valutazione degli LLMs copra vari domini all'interno dell'elaborazione del linguaggio naturale, è stata prestata un'attenzione limitata all'indagine della loro capacità linguistica di comprendere le caratteristiche contestuali. Questo articolo introduce un benchmark per la comprensione del contesto adattando dataset esistenti per valutare i modelli generativi. Questo benchmark comprende quattro compiti distinti e nove dataset, tutti caratterizzati da prompt progettati per valutare la capacità dei modelli di comprendere il contesto. In primo luogo, valutiamo le prestazioni degli LLMs nello scenario di pre-addestramento con apprendimento in contesto. I risultati sperimentali indicano che i modelli densi pre-addestrati faticano a comprendere caratteristiche contestuali più sfumate rispetto ai modelli fine-tuned all'avanguardia. In secondo luogo, poiché la compressione degli LLMs sta acquisendo un'importanza crescente sia nella ricerca che nelle applicazioni reali, valutiamo la comprensione del contesto nei modelli quantizzati in contesti di apprendimento in contesto. Scopriamo che la quantizzazione post-addestramento a 3 bit porta a vari gradi di riduzione delle prestazioni sul nostro benchmark. Conduciamo un'analisi approfondita di questi scenari per corroborare i nostri risultati sperimentali.
Presentiamo SymbolicAI, un framework versatile e modulare che utilizza un approccio basato sulla logica per l'apprendimento di concetti e la gestione dei flussi nei processi generativi. SymbolicAI consente l'integrazione senza soluzione di continuità di modelli generativi con una vasta gamma di risolutori, trattando i grandi modelli linguistici (LLM) come parser semantici che eseguono compiti basati su istruzioni sia in linguaggio naturale che formale, colmando così il divario tra il ragionamento simbolico e l'IA generativa. Sfruttiamo i principi della programmazione probabilistica per affrontare compiti complessi e utilizziamo paradigmi di programmazione differenziabile e classica con i loro rispettivi punti di forza. Il framework introduce un insieme di operazioni polimorfiche, composizionali e auto-referenziali per la manipolazione dei flussi di dati, allineando gli output degli LLM con gli obiettivi dell'utente. Di conseguenza, possiamo passare tra le capacità di vari modelli di base dotati di capacità di apprendimento zero-shot e few-shot e modelli o risolutori specializzati e ottimizzati, competenti nel risolvere problemi specifici. A sua volta, il framework facilita la creazione e la valutazione di grafi computazionali spiegabili. Concludiamo introducendo una misura di qualità e il suo punteggio empirico per valutare questi grafi computazionali e proponiamo un benchmark che confronta vari LLM all'avanguardia attraverso una serie di flussi di lavoro complessi. Ci riferiamo al punteggio empirico come "Vector Embedding for Relational Trajectory Evaluation through Cross-similarity", o in breve punteggio VERTEX. Il codice del framework e il benchmark sono collegati di seguito.
Presentiamo evidenze di un sostanziale beneficio derivante dall'esplorazione efficiente nel raccogliere feedback umani per migliorare i modelli linguistici di grandi dimensioni. Nei nostri esperimenti, un agente genera sequenzialmente query mentre adatta un modello di ricompensa ai feedback ricevuti. Il nostro agente con le migliori prestazioni genera query utilizzando il doppio campionamento di Thompson, con l'incertezza rappresentata da una rete neurale epistemica. I nostri risultati dimostrano che l'esplorazione efficiente consente livelli elevati di prestazioni con un numero significativamente inferiore di query. Inoltre, sia la stima dell'incertezza che la scelta dello schema di esplorazione svolgono ruoli critici.
Il machine unlearning è emerso come un nuovo paradigma per dimenticare intenzionalmente campioni di dati da un determinato modello, al fine di aderire a normative stringenti. Tuttavia, i metodi esistenti di machine unlearning si sono concentrati principalmente su modelli di classificazione, lasciando relativamente inesplorato il panorama del dimenticare per i modelli generativi. Questo articolo funge da ponte, colmando il divario fornendo un quadro unificato di machine unlearning per modelli generativi image-to-image. All'interno di questo quadro, proponiamo un algoritmo computazionalmente efficiente, sostenuto da un'analisi teorica rigorosa, che dimostra un degrado delle prestazioni trascurabile sui campioni da conservare, rimuovendo efficacemente le informazioni dai campioni da dimenticare. Studi empirici su due dataset su larga scala, ImageNet-1K e Places-365, mostrano ulteriormente che il nostro algoritmo non dipende dalla disponibilità dei campioni da conservare, il che è ulteriormente in linea con le politiche di conservazione dei dati. Per quanto ne sappiamo, questo lavoro è il primo che rappresenta esplorazioni sistemiche, teoriche ed empiriche di machine unlearning specificamente progettato per modelli generativi image-to-image. Il nostro codice è disponibile all'indirizzo https://github.com/jpmorganchase/l2l-generator-unlearning.
Un approccio comune per allineare i modelli linguistici alle preferenze umane consiste nel prima apprendere un modello di ricompensa dai dati di preferenza, e poi utilizzare questo modello di ricompensa per aggiornare il modello linguistico. Studiamo due problemi strettamente correlati che emergono in questo approccio. In primo luogo, qualsiasi trasformazione monotona del modello di ricompensa preserva la classifica delle preferenze; esiste una scelta che è "migliore" delle altre? In secondo luogo, spesso desideriamo allineare i modelli linguistici a più proprietà: come dovremmo combinare più modelli di ricompensa? Utilizzando un'interpretazione probabilistica della procedura di allineamento, identifichiamo una scelta naturale per la trasformazione per (il caso comune di) ricompense apprese da modelli di preferenza Bradley-Terry. Questa trasformazione derivata ha due proprietà importanti. In primo luogo, enfatizza il miglioramento degli output che performano male, piuttosto che quelli che già ottengono punteggi elevati. Ciò mitiga sia l'underfitting (dove alcuni prompt non vengono migliorati) che il reward hacking (dove il modello impara a sfruttare la misspecificazione del modello di ricompensa). In secondo luogo, consente un'aggregazione principiata delle ricompense collegando la somma alla congiunzione logica: la somma delle ricompense trasformate corrisponde alla probabilità che l'output sia "buono" in tutte le proprietà misurate, in un senso che rendiamo preciso. Esperimenti di allineamento di modelli linguistici per essere sia utili che innocui utilizzando RLHF mostrano miglioramenti sostanziali rispetto all'approccio baseline (non trasformato).
Introduciamo Amortized Text-to-Mesh (AToM), un framework feed-forward da testo a mesh ottimizzato per più prompt testuali simultaneamente. A differenza dei metodi esistenti da testo a 3D, che spesso richiedono un'ottimizzazione lunga e specifica per ogni prompt e producono comunemente rappresentazioni diverse dalle mesh poligonali, AToM genera direttamente mesh di alta qualità con texture in meno di 1 secondo, riducendo i costi di addestramento di circa 10 volte, e si generalizza a prompt non visti. La nostra idea chiave è una nuova architettura da testo a mesh basata su triplane con una strategia di ottimizzazione a due stadi che garantisce un addestramento stabile e consente scalabilità. Attraverso esperimenti estesi su vari benchmark di prompt, AToM supera significativamente gli approcci amortized allo stato dell'arte con un'accuratezza oltre 4 volte superiore (nel dataset DF415) e produce output 3D più distinguibili e di qualità superiore. AToM dimostra una forte generalizzabilità, offrendo asset 3D dettagliati per prompt interpolati non visti senza ulteriore ottimizzazione durante l'inferenza, a differenza delle soluzioni specifiche per prompt.
Questo lavoro introduce EE-Tuning, una soluzione leggera ed economica per l'addestramento/ottimizzazione di grandi modelli linguistici (LLM) con uscita anticipata. A differenza dell'approccio comune del pre-addestramento completo dei parametri, EE-Tuning arricchisce qualsiasi LLM standard pre-addestrato (e possibilmente ottimizzato) con ulteriori strati di uscita anticipata che vengono ottimizzati in modo efficiente dal punto di vista dei parametri, richiedendo risorse computazionali e dati di addestramento significativamente inferiori. La nostra implementazione di EE-Tuning raggiunge un'eccellente efficienza di addestramento grazie a ottimizzazioni estensive delle prestazioni, nonché scalabilità grazie alla piena compatibilità con il parallelismo 3D. I risultati di esperimenti sistematici convalidano l'efficacia di EE-Tuning, confermando che è possibile ottenere un'inferenza efficace di LLM con uscita anticipata con un budget di addestramento limitato. Con l'obiettivo di rendere accessibili alla comunità gli LLM con uscita anticipata, rilasciamo il codice sorgente della nostra implementazione di EE-Tuning all'indirizzo https://github.com/pan-x-c/EE-LLM.