Articoli di ricerca IA selezionati quotidianamente con traduzioni
In questo articolo, introduciamo l'Instruction Following Score (IFS), una metrica che rileva la capacità dei modelli linguistici di seguire le istruzioni. La metrica ha un duplice scopo. In primo luogo, l'IFS può essere utilizzato per distinguere tra modelli base e modelli istruiti. Eseguiamo un benchmark su modelli base e istruiti disponibili pubblicamente e dimostriamo che il rapporto tra risposte ben formattate e frasi parziali o complete può essere una misura efficace per distinguere queste due classi di modelli. In secondo luogo, la metrica può essere utilizzata come criterio di arresto anticipato per il tuning delle istruzioni. Calcoliamo l'IFS per il Fine-Tuning Supervisionato (SFT) di modelli LLaMA da 7B e 13B, mostrando che i modelli imparano a seguire le istruzioni relativamente presto nel processo di addestramento, e che un ulteriore fine-tuning può portare a cambiamenti nella semantica del modello base sottostante. Come esempio di cambiamento semantico, mostriamo l'oggettività delle previsioni del modello, definita da una metrica ausiliaria chiamata ObjecQA. Dimostriamo che, in questo caso particolare, i cambiamenti semantici sono più marcati quando l'IFS tende a stabilizzarsi. Speriamo che la scomposizione del tuning delle istruzioni in fattori IFS e semantici avvii una nuova tendenza verso un tuning delle istruzioni meglio controllabile e apra possibilità per la progettazione di interfacce di istruzione minimali per interrogare i modelli di base.
I grandi modelli linguistici come GPT-4 mostrano capacità emergenti in compiti di carattere generale, come l'aritmetica di base, quando vengono addestrati su estesi dati testuali, anche se questi compiti non sono esplicitamente codificati dall'obiettivo non supervisionato di previsione del token successivo. Questo studio indaga come piccoli trasformatori, addestrati partendo da un'inizializzazione casuale, possano apprendere in modo efficiente operazioni aritmetiche come addizione, moltiplicazione e funzioni elementari come la radice quadrata, utilizzando l'obiettivo di previsione del token successivo. Dimostriamo innanzitutto che i dati di addestramento convenzionali non sono i più efficaci per l'apprendimento aritmetico e che semplici modifiche alla formattazione possono migliorare significativamente l'accuratezza. Ciò porta a transizioni di fase nette in funzione della scala dei dati di addestramento, che, in alcuni casi, possono essere spiegate attraverso connessioni con il completamento di matrici a basso rango. Basandoci su lavori precedenti, addestriamo poi su dati in stile "catena di pensiero" che includono i risultati intermedi. Anche in completa assenza di pre-addestramento, questo approccio migliora significativamente e simultaneamente l'accuratezza, la complessità campionaria e la velocità di convergenza. Studiamo inoltre l'interazione tra dati aritmetici e testuali durante l'addestramento ed esaminiamo gli effetti del prompting few-shot, del pre-addestramento e della scala del modello. Inoltre, discutiamo le sfide della generalizzazione sulla lunghezza. Il nostro lavoro sottolinea l'importanza di dati di alta qualità e istruttivi che tengano conto delle caratteristiche particolari dell'obiettivo di previsione della parola successiva per elicitare rapidamente capacità aritmetiche.
Le operazioni della catena di approvvigionamento tradizionalmente coinvolgono una varietà di problemi decisionali complessi. Negli ultimi decenni, le catene di approvvigionamento hanno tratto grande beneficio dai progressi nel campo del calcolo computazionale, che hanno permesso la transizione dall'elaborazione manuale all'automazione e all'ottimizzazione efficiente in termini di costi. Tuttavia, gli operatori aziendali devono ancora dedicare notevoli sforzi per spiegare e interpretare i risultati dell'ottimizzazione agli stakeholder. Motivati dai recenti progressi nei Modelli Linguistici di Grande Dimensione (LLM), studiamo come questa tecnologia rivoluzionaria possa contribuire a colmare il divario tra l'automazione della catena di approvvigionamento e la comprensione e fiducia umana in essa. Progettiamo un framework che accetta come input query in linguaggio naturale e restituisce approfondimenti sui risultati sottostanti dell'ottimizzazione. Il nostro framework non rinuncia alla tecnologia all'avanguardia dell'ottimizzazione combinatoria, ma la sfrutta per rispondere quantitativamente a scenari what-if (ad esempio, come cambierebbe il costo se utilizzassimo il fornitore B invece del fornitore A per una determinata domanda?). È importante sottolineare che il nostro design non richiede l'invio di dati proprietari agli LLM, il che potrebbe rappresentare un problema di privacy in alcune circostanze. Dimostriamo l'efficacia del nostro framework in uno scenario reale di posizionamento dei server all'interno della catena di approvvigionamento cloud di Microsoft. Nel corso di questo lavoro, sviluppiamo un benchmark di valutazione generale, che può essere utilizzato per valutare l'accuratezza dell'output degli LLM in altri scenari.
L'instruction tuning di modelli linguistici di grandi dimensioni (LLM) su coppie immagine-testo ha raggiunto capacità multimodali visione-linguaggio senza precedenti. Tuttavia, i loro allineamenti visione-linguaggio sono costruiti solo a livello di immagine, e la mancanza di un allineamento a livello di regione limita i loro progressi verso una comprensione multimodale fine. In questo articolo, proponiamo l'instruction tuning su regioni di interesse. L'idea chiave è riformulare il bounding box come formato di istruzione spaziale. Le sequenze intercalate di caratteristiche visive estratte dall'istruzione spaziale e l'embedding linguistico vengono inserite nel LLM, e addestrate sui dati regione-testo trasformati in formato instruction tuning. Il nostro modello visione-linguaggio a livello di regione, denominato GPT4RoI, offre un'esperienza conversazionale e interattiva completamente nuova, andando oltre la comprensione a livello di immagine. (1) Controllabilità: Gli utenti possono interagire con il nostro modello sia tramite istruzioni linguistiche che spaziali per regolare flessibilmente il livello di dettaglio della domanda. (2) Capacità: Il nostro modello supporta non solo istruzioni spaziali a singola regione, ma anche a più regioni. Ciò sblocca ulteriori capacità multimodali a livello di regione, come la descrizione dettagliata di regioni e il ragionamento complesso su regioni. (3) Composizione: Qualsiasi rilevatore di oggetti disponibile può fungere da fornitore di istruzioni spaziali, permettendo di estrarre dal nostro modello attributi informativi degli oggetti, come colore, forma, materiale, azione, relazione con altri oggetti, ecc. Il codice, i dati e la demo sono disponibili su https://github.com/jshilong/GPT4RoI.
Un gran numero di persone è costretto a utilizzare il Web in una lingua in cui ha una bassa alfabetizzazione a causa di asimmetrie tecnologiche. Il testo scritto nella seconda lingua (L2) da tali utenti spesso contiene un gran numero di errori influenzati dalla loro lingua madre (L1). Proponiamo un metodo per estrarre le confusioni fonemiche (suoni in L2 che un parlante L1 è probabile che confonda) per coppie di L1 e L2. Queste confusioni vengono poi integrate in un modello generativo (Bi-Phone) per produrre sinteticamente testo L2 corrotto. Attraverso valutazioni umane, dimostriamo che Bi-Phone genera corruzioni plausibili che variano tra le diverse L1 e hanno un'ampia copertura sul Web. Abbiamo anche corrotto il popolare benchmark di comprensione del linguaggio SuperGLUE con la nostra tecnica (FunGLUE per Phonetically Noised GLUE) e mostriamo che i modelli di comprensione del linguaggio allo stato dell'arte performano male. Introduciamo inoltre un nuovo task di pre-addestramento per la previsione di fonemi che aiuta i modelli basati su byte a recuperare prestazioni vicine a quelle di SuperGLUE. Infine, rilasciamo anche il benchmark FunGLUE per promuovere ulteriori ricerche su modelli di linguaggio foneticamente robusti. Per quanto ne sappiamo, FunGLUE è il primo benchmark a introdurre interazioni L1-L2 nel testo.
Cosa rende difficile la generalizzazione per l'apprendimento per imitazione nella manipolazione robotica visiva? Questa domanda è difficile da affrontare direttamente, ma l'ambiente dal punto di vista di un robot può spesso essere scomposto in fattori di variazione enumerabili, come le condizioni di illuminazione o il posizionamento della telecamera. Empiricamente, la generalizzazione ad alcuni di questi fattori ha rappresentato un ostacolo maggiore rispetto ad altri, ma il lavoro esistente getta poca luce su quanto ciascun fattore contribuisca esattamente al gap di generalizzazione. Nel tentativo di rispondere a questa domanda, studiamo politiche di apprendimento per imitazione in simulazione e su un compito di manipolazione condizionato al linguaggio su un robot reale, per quantificare la difficoltà di generalizzazione a diversi (insiemi di) fattori. Progettiamo inoltre un nuovo benchmark simulato di 19 compiti con 11 fattori di variazione per facilitare valutazioni più controllate della generalizzazione. Dal nostro studio, determiniamo un ordinamento dei fattori basato sulla difficoltà di generalizzazione, che è coerente tra la simulazione e il nostro setup robotico reale.
Grazie all'emergere dei modelli di base, i grandi modelli linguistici e visivi sono stati integrati per acquisire capacità multimodali come la descrizione visiva, il dialogo, la risposta a domande, ecc. Sebbene i modelli multimodali esistenti presentino prestazioni impressionanti nella comprensione e nel ragionamento visivo, i loro limiti sono ancora ampiamente inesplorati a causa della scarsità di dati di alta qualità per l'ottimizzazione tramite istruzioni. Per spingere al limite le capacità multimodali, abbiamo ampliato l'ottimizzazione tramite istruzioni visive (SVIT) costruendo un dataset di 3,2 milioni di dati di ottimizzazione tramite istruzioni visive, inclusi 1,6 milioni di coppie domanda-risposta (QA) di conversazione, 1,6 milioni di coppie QA di ragionamento complesso e 106.000 descrizioni dettagliate di immagini. Oltre al volume, il dataset proposto si distingue anche per l'alta qualità e la ricca diversità, generata utilizzando GPT-4 con abbondanti annotazioni manuali delle immagini. Verifichiamo empiricamente che l'addestramento di modelli multimodali su SVIT può migliorare significativamente le prestazioni multimodali in termini di percezione visiva, ragionamento e pianificazione.
Recenti lavori hanno analizzato empiricamente l'apprendimento in contesto e dimostrato che i trasformatori addestrati su compiti sintetici di regressione lineare possono imparare a implementare la regressione ridge, che è il predittore Bayes-ottimale, data una capacità sufficiente [Akyürek et al., 2023], mentre trasformatori a un solo strato con auto-attenzione lineare e senza strato MLP imparano a implementare un singolo passo di discesa del gradiente (GD) su un obiettivo di regressione lineare ai minimi quadrati [von Oswald et al., 2022]. Tuttavia, la teoria alla base di queste osservazioni rimane poco compresa. Studiamo teoricamente i trasformatori con un singolo strato di auto-attenzione lineare, addestrati su dati sintetici di regressione lineare rumorosa. In primo luogo, dimostriamo matematicamente che quando le covariate sono estratte da una distribuzione gaussiana standard, il trasformatore a un solo strato che minimizza la perdita di pre-addestramento implementerà un singolo passo di GD sull'obiettivo di regressione lineare ai minimi quadrati. Successivamente, scopriamo che cambiare la distribuzione delle covariate e del vettore dei pesi in una distribuzione gaussiana non isotropica ha un forte impatto sull'algoritmo appreso: il minimizzatore globale della perdita di pre-addestramento ora implementa un singolo passo di GD pre-condizionato. Tuttavia, se viene modificata solo la distribuzione delle risposte, ciò non ha un grande effetto sull'algoritmo appreso: anche quando la risposta proviene da una famiglia più generale di funzioni non lineari, il minimizzatore globale della perdita di pre-addestramento implementa comunque un singolo passo di GD su un obiettivo di regressione lineare ai minimi quadrati.
I modelli di IA avanzata promettono enormi benefici per l'umanità, ma la società deve gestire proattivamente i rischi associati. In questo articolo, ci concentriamo su ciò che definiamo modelli di "frontiera dell'IA": modelli di base altamente capaci che potrebbero possedere abilità pericolose sufficienti a rappresentare gravi rischi per la sicurezza pubblica. I modelli di frontiera dell'IA pongono una sfida normativa distinta: le capacità pericolose possono emergere inaspettatamente; è difficile prevenire in modo robusto l'uso improprio di un modello già distribuito; ed è difficile impedire la proliferazione su larga scala delle capacità di un modello. Per affrontare queste sfide, sono necessari almeno tre elementi fondamentali per la regolamentazione dei modelli di frontiera: (1) processi di definizione degli standard per identificare i requisiti appropriati per gli sviluppatori di IA di frontiera, (2) requisiti di registrazione e reporting per fornire ai regolatori visibilità sui processi di sviluppo dell'IA di frontiera, e (3) meccanismi per garantire il rispetto degli standard di sicurezza per lo sviluppo e la distribuzione dei modelli di frontiera dell'IA. L'autoregolamentazione del settore è un primo passo importante. Tuttavia, saranno necessarie discussioni sociali più ampie e interventi governativi per creare standard e garantirne il rispetto. Consideriamo diverse opzioni a tal fine, tra cui l'attribuzione di poteri di enforcement alle autorità di supervisione e regimi di licenza per i modelli di frontiera dell'IA. Infine, proponiamo un insieme iniziale di standard di sicurezza. Questi includono la conduzione di valutazioni del rischio pre-distribuzione; il controllo esterno del comportamento del modello; l'uso delle valutazioni del rischio per informare le decisioni di distribuzione; e il monitoraggio e la risposta alle nuove informazioni sulle capacità e gli usi del modello post-distribuzione. Speriamo che questa discussione contribuisca al più ampio dibattito su come bilanciare i rischi per la sicurezza pubblica e i benefici dell'innovazione derivanti dai progressi alla frontiera dello sviluppo dell'IA.