Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo Mixtral 8x7B, un modello linguistico Sparse Mixture of Experts (SMoE). Mixtral ha la stessa architettura di Mistral 7B, con la differenza che ogni livello è composto da 8 blocchi feedforward (cioè esperti). Per ogni token, a ogni livello, una rete router seleziona due esperti per elaborare lo stato corrente e combinare i loro output. Anche se ogni token vede solo due esperti, gli esperti selezionati possono essere diversi a ogni passo temporale. Di conseguenza, ogni token ha accesso a 47 miliardi di parametri, ma utilizza solo 13 miliardi di parametri attivi durante l'inferenza. Mixtral è stato addestrato con una dimensione di contesto di 32k token e supera o eguaglia Llama 2 70B e GPT-3.5 in tutti i benchmark valutati. In particolare, Mixtral supera di gran lunga Llama 2 70B nei benchmark di matematica, generazione di codice e multilingue. Forniamo anche un modello fine-tuned per seguire istruzioni, Mixtral 8x7B - Instruct, che supera GPT-3.5 Turbo, Claude-2.1, Gemini Pro e Llama 2 70B - chat model nei benchmark umani. Sia il modello base che quello instruct sono rilasciati sotto la licenza Apache 2.0.
I Modelli a Spazio di Stato (SSM) sono diventati seri contendenti nel campo della modellazione sequenziale, sfidando il dominio dei Transformer. Allo stesso tempo, la Miscela di Esperti (MoE) ha migliorato significativamente i LLM basati su Transformer, inclusi i recenti modelli open-source all'avanguardia. Proponiamo che, per sbloccare il potenziale degli SSM in termini di scalabilità, essi debbano essere combinati con MoE. Dimostriamo questo concetto su Mamba, un recente modello basato su SSM che raggiunge prestazioni notevoli, simili a quelle dei Transformer. Il nostro modello, MoE-Mamba, supera sia Mamba che Transformer-MoE. In particolare, MoE-Mamba raggiunge le stesse prestazioni di Mamba in 2,2 volte meno passi di addestramento, preservando i guadagni di prestazioni in inferenza di Mamba rispetto al Transformer.
Nella ricerca sull'IA conversazionale, si osserva una tendenza significativa verso lo sviluppo di modelli con un numero maggiore di parametri, esemplificati da modelli come ChatGPT. Sebbene questi modelli estesi tendano a generare risposte di chat sempre migliori, richiedono risorse computazionali e memoria significative. Questo studio esplora una domanda pertinente: è possibile che una combinazione di modelli più piccoli, collaborando tra loro, raggiunga prestazioni comparabili o superiori rispetto a un singolo modello di grandi dimensioni? Introduciamo un approccio denominato "blending", un metodo semplice ma efficace per integrare più IA di chat. Le nostre evidenze empiriche suggeriscono che, quando specifici modelli più piccoli vengono combinati in modo sinergico, possono potenzialmente superare o eguagliare le capacità di controparti molto più grandi. Ad esempio, l'integrazione di soli tre modelli di dimensioni moderate (6B/13B parametri) può rivaleggiare o addirittura superare le metriche di prestazione di un modello sostanzialmente più grande come ChatGPT (175B+ parametri). Questa ipotesi è stata rigorosamente testata utilizzando metodologie di test A/B con un'ampia base di utenti sulla piattaforma di ricerca Chai per un periodo di trenta giorni. I risultati sottolineano il potenziale della strategia di "blending" come approccio valido per migliorare l'efficacia delle IA di chat senza un corrispondente aumento delle richieste computazionali.
L'utilizzo di contesti lunghi rappresenta una grande sfida per i grandi modelli linguistici a causa della loro limitata lunghezza della finestra contestuale. Sebbene la finestra contestuale possa essere estesa attraverso il fine-tuning, ciò comporterà un costo considerevole sia in fase di addestramento che di inferenza, e avrà un impatto sfavorevole sulle capacità originali del LLM. In questo lavoro, proponiamo Activation Beacon, che condensa le attivazioni grezze del LLM in forme più compatte in modo che possa percepire un contesto molto più lungo con una finestra contestuale limitata. Activation Beacon è introdotto come un modulo plug-and-play per il LLM. Preserva completamente le capacità originali del LLM sui contesti brevi estendendo al contempo la nuova capacità di elaborare contesti più lunghi. Inoltre, funziona con finestre scorrevoli brevi per elaborare il contesto lungo, ottenendo un'efficienza competitiva in termini di memoria e tempo sia in fase di addestramento che di inferenza. Activation Beacon viene appreso attraverso il task di auto-regressione condizionato su una miscela di beacon con rapporti di condensazione diversificati. Grazie a questo approccio, può essere addestrato in modo efficiente utilizzando esclusivamente dati a sequenza breve in soli 10K passi, che richiedono meno di 9 ore su una singola macchina con 8 GPU A800. Gli studi sperimentali dimostrano che Activation Beacon è in grado di estendere la lunghezza contestuale di Llama-2-7B di 100 volte (da 4K a 400K), ottenendo al contempo un risultato superiore sia nei task di generazione che di comprensione di contesti lunghi. Il nostro modello e il codice saranno disponibili nel repository BGE.
Nonostante i recenti progressi nei metodi generativi da testo a 3D, si osserva una notevole assenza di metriche di valutazione affidabili. Le metriche esistenti si concentrano solitamente su un singolo criterio, come quanto bene l'asset sia allineato con il testo di input. Queste metriche mancano della flessibilità necessaria per generalizzare a diversi criteri di valutazione e potrebbero non allinearsi bene con le preferenze umane. Condurre studi sulle preferenze degli utenti rappresenta un'alternativa che offre sia adattabilità sia risultati allineati con le preferenze umane. Tuttavia, gli studi sugli utenti possono essere molto costosi da scalare. Questo articolo presenta una metrica di valutazione automatica, versatile e allineata con le preferenze umane per i modelli generativi da testo a 3D. A tal fine, sviluppiamo innanzitutto un generatore di prompt utilizzando GPT-4V per generare prompt di valutazione, che servono come input per confrontare i modelli da testo a 3D. Progettiamo inoltre un metodo che istruisce GPT-4V a confrontare due asset 3D secondo criteri definiti dall'utente. Infine, utilizziamo i risultati di questi confronti a coppie per assegnare a questi modelli valutazioni Elo. I risultati sperimentali suggeriscono che la nostra metrica si allinea fortemente con le preferenze umane attraverso diversi criteri di valutazione.
In questo articolo presentiamo DiarizationLM, un framework che sfrutta i grandi modelli linguistici (LLM) per post-elaborare gli output di un sistema di diarizzazione del parlato. Con il framework proposto è possibile raggiungere vari obiettivi, come migliorare la leggibilità della trascrizione diarizzata o ridurre il tasso di errore di diarizzazione delle parole (WDER). In questo framework, gli output dei sistemi di riconoscimento vocale automatico (ASR) e di diarizzazione del parlato vengono rappresentati in un formato testuale compatto, che viene incluso nel prompt di un LLM opzionalmente addestrato. Gli output dell'LLM possono essere utilizzati come risultati di diarizzazione raffinati con il miglioramento desiderato. Come passaggio di post-elaborazione, questo framework può essere facilmente applicato a qualsiasi sistema ASR e di diarizzazione del parlato disponibile sul mercato senza dover riaddestrare i componenti esistenti. I nostri esperimenti dimostrano che un modello PaLM 2-S addestrato può ridurre il WDER del 25,9% relativo sul dataset di conversazioni telefoniche Fisher e del 31% relativo sul dataset Callhome English.
I modelli linguistici di grandi dimensioni (LLM) hanno compiuto progressi significativi nelle attività legate al codice, tuttavia molti LLM trattano il codice come semplici sequenze, trascurandone la natura strutturata. Introduciamo AST-T5, un nuovo paradigma di pre-addestramento che sfrutta l'Albero Sintattico Astratto (AST) per migliorare la generazione, la trasposizione e la comprensione del codice. Utilizzando la programmazione dinamica, la nostra Segmentazione Consapevole dell'AST mantiene la struttura del codice, mentre l'obiettivo di Corruzione di Span Consapevole dell'AST consente al modello di ricostruire varie strutture di codice. A differenza di altri modelli, AST-T5 evita complesse analisi di programma o modifiche architetturali, integrandosi quindi perfettamente con qualsiasi Transformer encoder-decoder. Le valutazioni dimostrano che AST-T5 supera costantemente modelli linguistici di dimensioni simili in varie attività legate al codice. La consapevolezza della struttura rende AST-T5 particolarmente potente nelle attività di codice-a-codice, superando CodeT5 di 2 punti nel punteggio di corrispondenza esatta per il task Bugs2Fix e di 3 punti nel punteggio di corrispondenza esatta per la trasposizione Java-C# in CodeXGLUE. Il nostro codice e il modello sono disponibili pubblicamente all'indirizzo https://github.com/gonglinyuan/ast_t5.
Presentiamo CRUXEval (Code Reasoning, Understanding, and eXecution Evaluation), un benchmark composto da 800 funzioni Python (3-13 righe). Ogni funzione è accompagnata da una coppia input-output, dando origine a due compiti naturali: la previsione dell'input e la previsione dell'output. In primo luogo, proponiamo una ricetta generica per la generazione del nostro benchmark di esecuzione, che può essere utilizzata per creare future variazioni del benchmark. In secondo luogo, valutiamo venti modelli di codice sul nostro benchmark e scopriamo che molti modelli recenti ad alto punteggio su HumanEval non mostrano gli stessi miglioramenti sul nostro benchmark. In terzo luogo, dimostriamo che semplici schemi di CoT (Chain of Thought) e fine-tuning possono migliorare le prestazioni sul nostro benchmark, ma rimangono lontani dal risolverlo. La configurazione migliore, GPT-4 con chain of thought (CoT), raggiunge un pass@1 del 75% e dell'81% rispettivamente per la previsione dell'input e dell'output. Al contrario, Code Llama 34B raggiunge un pass@1 del 50% e del 46% per la previsione dell'input e dell'output, evidenziando il divario tra modelli open source e closed source. Poiché nessun modello è vicino a eccellere in CRUXEval, forniamo esempi di errori consistenti di GPT-4 su programmi semplici come una lente per comprendere le sue capacità di ragionamento sul codice e le aree di miglioramento.
L'emergenza dei modelli preaddestrati ha avuto un impatto significativo, dal Natural Language Processing (NLP) e Computer Vision fino ai dataset relazionali. Tradizionalmente, questi modelli vengono valutati attraverso task downstream di fine-tuning. Tuttavia, ciò solleva la questione di come valutare questi modelli in modo più efficiente ed efficace. In questo studio, esploriamo un approccio innovativo in cui sfruttiamo le meta caratteristiche associate a ciascuna entità come fonte di conoscenza del mondo e utilizziamo le rappresentazioni delle entità provenienti dai modelli. Proponiamo di utilizzare la coerenza tra queste rappresentazioni e le meta caratteristiche come metrica per valutare i modelli preaddestrati. L'efficacia del nostro metodo è dimostrata in vari domini, inclusi modelli con dataset relazionali, grandi modelli linguistici e modelli per immagini.
Considerando la crescente necessità di pipeline automatiche per la creazione di contenuti 3D, sono state studiate varie rappresentazioni 3D per generare oggetti tridimensionali a partire da una singola immagine. Grazie alla sua superiore efficienza di rendering, i modelli basati su splatting di Gaussiane 3D hanno recentemente eccelso sia nella ricostruzione che nella generazione 3D. Gli approcci di splatting di Gaussiane 3D per la generazione da immagine a 3D sono spesso basati su ottimizzazione, richiedendo numerosi passaggi di distillazione del punteggio computazionalmente costosi. Per superare queste sfide, introduciamo un framework Amortized Generative 3D Gaussian (AGG) che produce istantaneamente Gaussiane 3D da una singola immagine, eliminando la necessità di ottimizzazione per ogni istanza. Utilizzando una rappresentazione ibrida intermedia, AGG scompone la generazione delle posizioni delle Gaussiane 3D e di altri attributi di aspetto per un'ottimizzazione congiunta. Inoltre, proponiamo una pipeline a cascata che genera prima una rappresentazione approssimativa dei dati 3D e successivamente la migliora con un modulo di super-risoluzione basato su Gaussiane 3D. Il nostro metodo viene valutato rispetto ai framework esistenti basati su ottimizzazione di Gaussiane 3D e alle pipeline basate su campionamento che utilizzano altre rappresentazioni 3D, dove AGG dimostra capacità competitive di generazione sia qualitativamente che quantitativamente, essendo al contempo diverse ordini di grandezza più veloce. Pagina del progetto: https://ir1d.github.io/AGG/
In questo rapporto tecnico presentiamo TeleChat, una collezione di grandi modelli linguistici (LLM) con parametri da 3 miliardi, 7 miliardi e 12 miliardi. Include sia modelli linguistici pre-addestrati che modelli di chat raffinati allineati alle preferenze umane. TeleChat viene inizialmente pre-addestrato su un ampio corpus contenente una raccolta diversificata di testi in inglese e cinese, comprendente trilioni di token. Successivamente, il modello viene sottoposto a un processo di affinamento per allinearlo alle preferenze umane, seguendo una metodologia dettagliata che descriviamo. Valutiamo le prestazioni di TeleChat su varie attività, tra cui comprensione del linguaggio, matematica, ragionamento, generazione di codice e risposta a domande basate sulla conoscenza. I nostri risultati indicano che TeleChat raggiunge prestazioni comparabili ad altri modelli open-source di dimensioni simili su un'ampia gamma di benchmark pubblici. Per supportare future ricerche e applicazioni che utilizzano LLM, rilasciamo alla comunità pubblica i checkpoint dei modelli raffinati delle varianti 7B e 12B di TeleChat, insieme al codice e a una porzione dei nostri dati di pre-addestramento.