Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli linguistici di grandi dimensioni (LLM) hanno recentemente dimostrato capacità di ragionamento notevoli nella risoluzione di problemi matematici. Per migliorare ulteriormente questa capacità, questo lavoro propone Learning from Mistakes (LeMa), ispirato ai processi di apprendimento umani. Consideriamo uno studente che non riesce a risolvere un problema matematico: egli imparerà dall'errore commesso e da come correggerlo. Emulando questo processo di apprendimento guidato dagli errori, LeMa effettua il fine-tuning degli LLM su coppie di dati di correzione degli errori generate da GPT-4. Nello specifico, raccogliamo prima percorsi di ragionamento inaccurati da vari LLM e poi utilizziamo GPT-4 come "correttore" per (1) identificare il passo errato, (2) spiegare la ragione dell'errore e (3) correggere l'errore e generare la risposta finale. I risultati sperimentali dimostrano l'efficacia di LeMa: su cinque LLM di base e due compiti di ragionamento matematico, LeMa migliora costantemente le prestazioni rispetto al fine-tuning sui soli dati CoT. In modo impressionante, LeMa può anche beneficiare LLM specializzati come WizardMath e MetaMath, raggiungendo un'accuratezza pass@1 dell'85,4% su GSM8K e del 27,1% su MATH. Questo supera le prestazioni SOTA ottenute da modelli open-source non esecutivi su questi compiti impegnativi. Il nostro codice, i dati e i modelli saranno pubblicamente disponibili all'indirizzo https://github.com/microsoft/CodeT.
I grandi modelli multimodali dimostrano una notevole capacità generalista di eseguire compiti multimodali diversi in modalità zero-shot. Le coppie immagine-testo su larga scala basate sul web contribuiscono in modo fondamentale a questo successo, ma soffrono di un eccessivo rumore. Studi recenti utilizzano didascalie alternative sintetizzate da modelli di descrizione e hanno ottenuto prestazioni significative nei benchmark. Tuttavia, i nostri esperimenti rivelano significativi problemi di Scalabilità Deficitaria e Perdita di Conoscenza Mondiale nei modelli addestrati con didascalie sintetiche, che sono stati in gran parte oscurati dal loro iniziale successo nei benchmark. Un esame più attento identifica la causa principale nella struttura linguistica eccessivamente semplificata e nella mancanza di dettagli conoscitivi nelle didascalie sintetiche esistenti. Per fornire dati di pre-addestramento multimodale di qualità superiore e più scalabili, proponiamo CapsFusion, un framework avanzato che sfrutta i grandi modelli linguistici per consolidare e affinare le informazioni provenienti sia dalle coppie immagine-testo basate sul web che dalle didascalie sintetiche. Esperimenti estesi dimostrano che le didascalie CapsFusion mostrano una notevole superiorità a tutto tondo rispetto alle didascalie esistenti in termini di prestazioni del modello (ad esempio, miglioramenti di 18,8 e 18,3 nel punteggio CIDEr su COCO e NoCaps), efficienza del campione (richiedendo 11-16 volte meno calcolo rispetto ai baseline), profondità della conoscenza mondiale e scalabilità. Questi vantaggi in termini di efficacia, efficienza e scalabilità posizionano CapsFusion come un candidato promettente per il futuro ampliamento dell'addestramento dei LMM.
I sistemi di visione artificiale basati su reti neurali sono tipicamente costruiti su un backbone, un estrattore di caratteristiche pre-addestrato o inizializzato casualmente. Diversi anni fa, l'opzione predefinita era una rete neurale convoluzionale addestrata su ImageNet. Tuttavia, negli ultimi tempi abbiamo assistito all'emergere di innumerevoli backbone pre-addestrati utilizzando vari algoritmi e dataset. Sebbene questa abbondanza di scelta abbia portato a miglioramenti delle prestazioni per una gamma di sistemi, è difficile per i professionisti prendere decisioni informate su quale backbone scegliere. Battle of the Backbones (BoB) rende questa scelta più semplice eseguendo benchmark su una suite diversificata di modelli pre-addestrati, inclusi modelli visione-linguaggio, quelli addestrati tramite apprendimento auto-supervisionato e il backbone di Stable Diffusion, su un ampio insieme di task di visione artificiale che vanno dalla classificazione alla rilevazione di oggetti, alla generalizzazione OOD e altro ancora. Inoltre, BoB getta luce su direzioni promettenti per la comunità di ricerca per far progredire la visione artificiale, evidenziando punti di forza e debolezza degli approcci esistenti attraverso un'analisi completa condotta su oltre 1500 esecuzioni di addestramento. Sebbene i vision transformer (ViT) e l'apprendimento auto-supervisionato (SSL) siano sempre più popolari, scopriamo che le reti neurali convoluzionali pre-addestrate in modo supervisionato su grandi dataset di addestramento continuano a ottenere le migliori prestazioni sulla maggior parte dei task tra i modelli considerati. Inoltre, in confronti diretti sulle stesse architetture e su dataset di pre-addestramento di dimensioni simili, scopriamo che i backbone SSL sono altamente competitivi, indicando che i lavori futuri dovrebbero eseguire il pre-addestramento SSL con architetture avanzate e dataset di pre-addestramento più ampi. Rilasciamo i risultati grezzi dei nostri esperimenti insieme al codice che consente ai ricercatori di sottoporre i propri backbone a questa prova qui: https://github.com/hsouri/Battle-of-the-Backbones.
L'apprendimento per rinforzo offline (offline RL) mira a trovare una politica quasi ottimale utilizzando dataset pre-raccolti. Negli scenari del mondo reale, la raccolta dei dati potrebbe essere costosa e rischiosa; pertanto, l'offline RL diventa particolarmente impegnativo quando i dati nel dominio specifico sono limitati. Alla luce dei recenti progressi nei Modelli Linguistici di Grande Scala (LLMs) e della loro capacità di apprendimento few-shot, questo articolo introduce Language Models for Motion Control (LaMo), un framework generale basato su Decision Transformers per utilizzare efficacemente Modelli Linguistici (LMs) pre-addestrati nell'offline RL. Il nostro framework mette in evidenza quattro componenti cruciali: (1) Inizializzazione dei Decision Transformers con LMs pre-addestrati sequenzialmente, (2) impiego del metodo di fine-tuning LoRA, in contrasto con il fine-tuning completo dei pesi, per combinare efficacemente la conoscenza pre-addestrata dei LMs e la conoscenza nel dominio specifico, (3) utilizzo della trasformazione non-lineare MLP invece di proiezioni lineari, per generare embedding, e (4) integrazione di una perdita ausiliaria di previsione linguistica durante il fine-tuning per stabilizzare i LMs e mantenere le loro capacità originali sui linguaggi. I risultati empirici indicano che LaMo raggiunge prestazioni all'avanguardia in compiti con ricompense sparse e riduce il divario tra i metodi di offline RL basati sul valore e i decision transformers nei compiti con ricompense dense. In particolare, il nostro metodo dimostra prestazioni superiori negli scenari con un numero limitato di campioni di dati. Il sito web del nostro progetto è https://lamo2023.github.io.
Abbiamo valutato GPT-4 in un test di Turing pubblico online. Il prompt di GPT-4 con le migliori prestazioni ha superato il test nel 41% delle partite, superando i benchmark stabiliti da ELIZA (27%) e GPT-3.5 (14%), ma rimanendo al di sotto del caso casuale e del benchmark stabilito dai partecipanti umani (63%). Le decisioni dei partecipanti si sono basate principalmente sullo stile linguistico (35%) e sui tratti socio-emotivi (27%), supportando l'idea che l'intelligenza non sia sufficiente per superare il test di Turing. I dati demografici dei partecipanti, inclusi istruzione e familiarità con i modelli linguistici di grandi dimensioni (LLM), non hanno predetto il tasso di rilevamento, suggerendo che anche coloro che comprendono a fondo i sistemi e interagiscono frequentemente con essi possano essere suscettibili all'inganno. Nonostante i limiti noti come test di intelligenza, sosteniamo che il test di Turing continui a essere rilevante come valutazione della comunicazione naturalistica e dell'inganno. I modelli di IA con la capacità di mascherarsi da esseri umani potrebbero avere conseguenze sociali diffuse, e analizziamo l'efficacia di diverse strategie e criteri per giudicare la somiglianza umana.
Gli sviluppatori di IA applicano spesso procedure di allineamento alla sicurezza per prevenire l'uso improprio dei loro sistemi di IA. Ad esempio, prima che Meta rilasciasse Llama 2-Chat, una raccolta di modelli linguistici di grandi dimensioni ottimizzati per le istruzioni, ha investito pesantemente nella formazione sulla sicurezza, incorporando estese attività di red-teaming e apprendimento per rinforzo basato sul feedback umano. Tuttavia, non è chiaro quanto bene la formazione sulla sicurezza protegga dall'uso improprio del modello quando gli attaccanti hanno accesso ai pesi del modello. Esploriamo la robustezza della formazione sulla sicurezza nei modelli linguistici ottimizzando in modo subdolo i pesi pubblici di Llama 2-Chat. Utilizziamo l'adattamento a basso rango (LoRA) come metodo efficiente di ottimizzazione. Con un budget inferiore a $200 per modello e utilizzando solo una GPU, siamo riusciti a annullare la formazione sulla sicurezza dei modelli Llama 2-Chat di dimensioni 7B, 13B e 70B. In particolare, la nostra tecnica di ottimizzazione riduce significativamente la frequenza con cui il modello rifiuta di seguire istruzioni dannose. Raggiungiamo un tasso di rifiuto inferiore all'1% per il nostro modello Llama 2-Chat da 70B su due benchmark di rifiuto. Il nostro metodo di ottimizzazione mantiene le prestazioni generali, che convalidiamo confrontando i nostri modelli ottimizzati con Llama 2-Chat su due benchmark. Inoltre, presentiamo una selezione di output dannosi prodotti dai nostri modelli. Sebbene ci sia una notevole incertezza sull'entità dei rischi dei modelli attuali, è probabile che i modelli futuri avranno capacità significativamente più pericolose, inclusa la capacità di hackerare infrastrutture critiche, creare armi biologiche pericolose o replicarsi e adattarsi autonomamente a nuovi ambienti. Mostriamo che l'ottimizzazione subdola è pratica ed efficace, e quindi sosteniamo che la valutazione dei rischi derivanti dall'ottimizzazione dovrebbe essere una parte fondamentale delle valutazioni del rischio per il rilascio dei pesi del modello.
I modelli di diffusione sono una famiglia di modelli generativi che raggiungono prestazioni record in compiti come la sintesi di immagini, la generazione di video e il design di molecole. Nonostante le loro capacità, la loro efficienza, in particolare nel processo inverso di rimozione del rumore, rimane una sfida a causa dei tassi di convergenza lenti e degli elevati costi computazionali. In questo lavoro, introduciamo un approccio che sfrutta sistemi dinamici continui per progettare una nuova rete di rimozione del rumore per i modelli di diffusione che è più efficiente in termini di parametri, mostra una convergenza più rapida e dimostra una maggiore robustezza al rumore. Sperimentando con modelli probabilistici di diffusione per la rimozione del rumore, il nostro framework opera con circa un quarto dei parametri e il 30% delle operazioni in virgola mobile (FLOPs) rispetto alle U-Net standard nei Modelli Probabilistici di Diffusione per la Rimozione del Rumore (DDPM). Inoltre, il nostro modello è fino al 70% più veloce nell'inferenza rispetto ai modelli di riferimento quando misurato in condizioni uguali, convergendo verso soluzioni di qualità superiore.
I grandi corpora testuali costituiscono la spina dorsale dei modelli linguistici. Tuttavia, abbiamo una comprensione limitata del contenuto di questi corpora, incluse statistiche generali, qualità, fattori sociali e inclusione di dati di valutazione (contaminazione). In questo lavoro, proponiamo What's In My Big Data? (WIMBD), una piattaforma e un insieme di sedici analisi che ci permettono di rivelare e confrontare i contenuti di grandi corpora testuali. WIMBD si basa su due capacità fondamentali — conteggio e ricerca — su larga scala, che ci consentono di analizzare più di 35 terabyte su un nodo di calcolo standard. Applichiamo WIMBD a dieci diversi corpora utilizzati per addestrare modelli linguistici popolari, tra cui C4, The Pile e RedPajama. La nostra analisi rivela diversi risultati sorprendenti e precedentemente non documentati su questi corpora, inclusa l'elevata prevalenza di contenuti duplicati, sintetici e di bassa qualità, informazioni personalmente identificabili, linguaggio tossico e contaminazione dei benchmark. Ad esempio, scopriamo che circa il 50% dei documenti in RedPajama e LAION-2B-en sono duplicati. Inoltre, diversi dataset utilizzati per valutare i modelli addestrati su tali corpora sono contaminati rispetto a benchmark importanti, tra cui la Winograd Schema Challenge e parti di GLUE e SuperGLUE. Rendiamo open-source il codice e gli artefatti di WIMBD per fornire un insieme standard di valutazioni per nuovi corpora testuali e per incoraggiare maggiori analisi e trasparenza intorno a essi: github.com/allenai/wimbd.
Per elaborare frasi nuove, i modelli linguistici (LM) devono generalizzare in modo composizionale, ovvero combinare elementi familiari in modi nuovi. Quali aspetti della struttura di un modello favoriscono la generalizzazione composizionale? Concentrandoci sui transformer, testiamo l'ipotesi, motivata da recenti lavori teorici ed empirici, che i transformer generalizzino in modo più composizionale quando sono più profondi (hanno più strati). Poiché semplicemente aggiungere strati aumenta il numero totale di parametri, confondendo profondità e dimensione, costruiamo tre classi di modelli che bilanciano profondità e larghezza in modo che il numero totale di parametri rimanga costante (41M, 134M e 374M parametri). Pre-addestriamo tutti i modelli come LM e li ottimizziamo su compiti che testano la generalizzazione composizionale. Riferiamo tre conclusioni principali: (1) dopo l'ottimizzazione, i modelli più profondi generalizzano meglio fuori distribuzione rispetto ai modelli più superficiali, ma il beneficio relativo di strati aggiuntivi diminuisce rapidamente; (2) all'interno di ciascuna famiglia, i modelli più profondi mostrano una migliore performance nella modellazione linguistica, ma i rendimenti diminuiscono in modo simile; (3) i benefici della profondità per la generalizzazione composizionale non possono essere attribuiti esclusivamente a una migliore performance nella modellazione linguistica o sui dati in distribuzione.
Recentemente, la generazione di video ha compiuto progressi significativi con risultati realistici. Tuttavia, i video generati dall'IA esistenti sono solitamente clip molto brevi ("a livello di scena") che rappresentano una singola scena. Per ottenere un video lungo e coerente ("a livello di storia"), è auspicabile avere effetti di transizione e previsione creativi tra diversi clip. Questo articolo presenta un modello di diffusione video da breve a lungo, SEINE, che si concentra sulla transizione e previsione generativa. L'obiettivo è generare video lunghi di alta qualità con transizioni fluide e creative tra scene e video di varia durata a livello di scena. Nello specifico, proponiamo un modello di diffusione video con maschera casuale per generare automaticamente transizioni basate su descrizioni testuali. Fornendo le immagini di scene diverse come input, combinate con il controllo basato su testo, il nostro modello genera video di transizione che garantiscono coerenza e qualità visiva. Inoltre, il modello può essere facilmente esteso a vari compiti come l'animazione da immagine a video e la previsione video autoregressiva. Per condurre una valutazione completa di questo nuovo compito generativo, proponiamo tre criteri di valutazione per transizioni fluide e creative: coerenza temporale, somiglianza semantica e allineamento semantico video-testo. Esperimenti estesi convalidano l'efficacia del nostro approccio rispetto ai metodi esistenti per la transizione e previsione generativa, consentendo la creazione di video lunghi a livello di storia. Pagina del progetto: https://vchitect.github.io/SEINE-project/.
ChipNeMo si propone di esplorare le applicazioni dei grandi modelli linguistici (LLM) per la progettazione industriale di chip. Invece di utilizzare direttamente LLM commerciali o open-source già disponibili, adottiamo le seguenti tecniche di adattamento al dominio: tokenizer personalizzati, pre-addestramento continuo adattato al dominio, fine-tuning supervisionato (SFT) con istruzioni specifiche del dominio e modelli di recupero adattati al dominio. Valutiamo questi metodi su tre applicazioni selezionate di LLM per la progettazione di chip: un chatbot assistente per l'ingegneria, la generazione di script EDA e la sintesi e analisi dei bug. I nostri risultati dimostrano che queste tecniche di adattamento al dominio consentono miglioramenti significativi delle prestazioni degli LLM rispetto ai modelli di base generici nelle tre applicazioni valutate, permettendo una riduzione delle dimensioni del modello fino a 5 volte con prestazioni simili o migliori su una gamma di attività di progettazione. Le nostre scoperte indicano inoltre che c'è ancora margine di miglioramento tra i risultati attuali e gli esiti ideali. Crediamo che ulteriori indagini sugli approcci LLM adattati al dominio contribuiranno a colmare questo divario in futuro.
La valutazione automatica dell'intelligenza degli agenti basati su LLM (Large Language Models) è fondamentale per lo sviluppo di agenti avanzati basati su LLM. Sebbene siano stati compiuti notevoli sforzi per creare dataset di valutazione annotati da esseri umani, come AlpacaEval, le tecniche esistenti sono costose, richiedono molto tempo e mancano di adattabilità. In questo articolo, ispirati dal popolare gioco linguistico "Chi è la spia", proponiamo di utilizzare il gioco di indovinare le parole per valutare le prestazioni intellettuali degli LLM. Data una parola, all'LLM viene chiesto di descriverla e di determinarne l'identità (spia o no) basandosi sulle proprie descrizioni e su quelle degli altri giocatori. Idealmente, un agente avanzato dovrebbe possedere la capacità di descrivere accuratamente una parola data utilizzando una descrizione aggressiva, massimizzando contemporaneamente la confusione nella descrizione conservativa, migliorando così la sua partecipazione al gioco. A tal fine, abbiamo sviluppato DEEP per valutare le capacità espressive e di mascheramento degli LLM. DEEP richiede all'LLM di descrivere una parola in modalità aggressiva e conservativa. Successivamente, introduciamo SpyGame, un framework interattivo multi-agente progettato per valutare l'intelligenza degli LLM attraverso la partecipazione a un gioco da tavolo competitivo basato sul linguaggio. Incorporando l'interazione multi-agente, SpyGame richiede che l'LLM target possieda abilità linguistiche e pensiero strategico, fornendo una valutazione più completa delle capacità cognitive simili a quelle umane e dell'adattabilità degli LLM in situazioni di comunicazione complesse. Il framework di valutazione proposto è molto semplice da implementare. Abbiamo raccolto parole da molteplici fonti, domini e lingue e abbiamo utilizzato il framework di valutazione proposto per condurre esperimenti. Esperimenti estensivi dimostrano che DEEP e SpyGame valutano efficacemente le capacità di vari LLM, catturando la loro capacità di adattarsi a situazioni nuove e di impegnarsi in comunicazioni strategiche.