Articoli di ricerca IA selezionati quotidianamente con traduzioni
Le recenti scoperte nei modelli linguistici di grandi dimensioni (LLM) si sono concentrate su un numero ristretto di lingue ricche di dati. Cosa serve per ampliare l'accesso a queste scoperte oltre le lingue considerate di prima classe? Il nostro lavoro introduce Aya, un modello linguistico generativo massivamente multilingue che segue istruzioni in 101 lingue, di cui oltre il 50% sono considerate a risorse limitate. Aya supera mT0 e BLOOMZ nella maggior parte dei compiti, coprendo il doppio delle lingue. Introduciamo ampie suite di valutazione che ampliano lo stato dell'arte per la valutazione multilingue in 99 lingue, includendo compiti discriminativi e generativi, valutazione umana e tassi di vittoria simulati che coprono sia compiti non visti che prestazioni in-distribuzione. Inoltre, conduciamo indagini dettagliate sulla composizione ottimale della miscela di fine-tuning, sulla potatura dei dati, nonché sulla tossicità, i pregiudizi e la sicurezza dei nostri modelli. Rendiamo open-source i nostri dataset di istruzioni e il nostro modello all'indirizzo https://hf.co/CohereForAI/aya-101.
L'interazione autonoma con il computer è stata una sfida di lunga data con un grande potenziale, e la recente proliferazione di modelli linguistici di grandi dimensioni (LLMs) ha accelerato significativamente i progressi nella costruzione di agenti digitali. Tuttavia, la maggior parte di questi agenti è progettata per interagire con un dominio ristretto, come un software o un sito web specifico. Questo focus limitato ne riduce l'applicabilità per compiti informatici generali. A tal fine, introduciamo OS-Copilot, un framework per costruire agenti generalisti in grado di interfacciarsi con elementi completi di un sistema operativo (OS), inclusi il web, terminali di codice, file, multimedia e varie applicazioni di terze parti. Utilizziamo OS-Copilot per creare FRIDAY, un agente incarnato auto-migliorante per l'automazione di compiti informatici generali. Su GAIA, un benchmark per assistenti AI generali, FRIDAY supera i metodi precedenti del 35%, dimostrando una forte generalizzazione a applicazioni non viste grazie alle competenze accumulate da compiti precedenti. Presentiamo inoltre evidenze numeriche e quantitative che dimostrano come FRIDAY impari a controllare e auto-migliorarsi su Excel e Powerpoint con una supervisione minima. Il nostro framework OS-Copilot e i risultati empirici forniscono infrastrutture e intuizioni per future ricerche verso agenti informatici più capaci e a scopo generale.
I modelli linguistici di grandi dimensioni (LLM) hanno compiuto progressi impressionanti nelle applicazioni chimiche, includendo la previsione delle proprietà molecolari, la generazione molecolare, la progettazione di protocolli sperimentali, ecc. Tuttavia, la comunità manca di un modello basato sul dialogo specificamente progettato per la chimica. La sfida deriva dal fatto che la maggior parte dei dati chimici e delle conoscenze scientifiche sono principalmente archiviati in database strutturati, e l'uso diretto di questi dati strutturati compromette la capacità del modello di mantenere un dialogo coerente. Per affrontare questo problema, sviluppiamo un nuovo metodo di costruzione di istruzioni basato su template che trasforma la conoscenza strutturata in dialogo semplice, rendendolo adatto per l'addestramento di modelli linguistici. Sfruttando questo approccio, sviluppiamo ChemLLM, il primo modello linguistico di grandi dimensioni dedicato alla chimica, in grado di eseguire varie attività attraverso le discipline chimiche con un'interazione dialogica fluida. ChemLLM supera GPT-3.5 in tutte e tre le principali attività chimiche, ovvero la conversione dei nomi, la descrizione molecolare e la previsione delle reazioni, e supera GPT-4 in due di esse. Notevolmente, ChemLLM mostra anche un'eccezionale adattabilità a compiti matematici e fisici correlati nonostante sia stato addestrato principalmente su corpora centrati sulla chimica. Inoltre, ChemLLM dimostra competenza in compiti NLP specializzati all'interno della chimica, come la traduzione della letteratura e la programmazione chemioinformatica. ChemLLM apre una nuova via di esplorazione all'interno degli studi chimici, mentre il nostro metodo di integrazione della conoscenza chimica strutturata nei sistemi di dialogo stabilisce una nuova frontiera per lo sviluppo di LLM in vari campi scientifici. Codici, dataset e pesi del modello sono accessibili pubblicamente su hf.co/AI4Chem/ChemLLM-7B-Chat.
I modelli linguistici di grandi dimensioni (LLM) basati sull'architettura Mixture-of-Experts (MoE) stanno dimostrando prestazioni promettenti in vari compiti. Tuttavia, eseguirli in contesti con risorse limitate, dove la memoria GPU non è abbondante, è impegnativo a causa delle dimensioni enormi dei modelli. I sistemi esistenti che scaricano i pesi del modello nella memoria CPU soffrono di un sovraccarico significativo dovuto al frequente trasferimento di dati tra CPU e GPU. In questo articolo, proponiamo Fiddler, un motore di inferenza efficiente in termini di risorse con orchestrazione CPU-GPU per i modelli MoE. L'idea chiave di Fiddler è utilizzare la capacità di calcolo della CPU per minimizzare il movimento dei dati tra CPU e GPU. La nostra valutazione mostra che Fiddler può eseguire il modello Mixtral-8x7B non compresso, che supera i 90 GB di parametri, generando oltre 3 token al secondo su una singola GPU con 24 GB di memoria, dimostrando un miglioramento di un ordine di grandezza rispetto ai metodi esistenti. Il codice di Fiddler è disponibile pubblicamente all'indirizzo https://github.com/efeslab/fiddler.
Con l'aumentare delle dimensioni dei modelli di intelligenza artificiale, le leggi di scala neurale sono diventate uno strumento cruciale per prevedere i miglioramenti dei modelli di grandi dimensioni quando si incrementano la capacità e la dimensione dei dati di addestramento originali (umani o naturali). Tuttavia, l'uso diffuso di modelli popolari significa che l'ecosistema di dati e testi online co-evolverà per contenere progressivamente quantità crescenti di dati sintetizzati. In questo articolo ci chiediamo: come cambieranno le leggi di scala nel regime inevitabile in cui i dati sintetici entrano a far parte del corpus di addestramento? I modelli futuri continueranno a migliorare, o saranno destinati a degenerare fino al collasso totale (del modello)? Sviluppiamo un quadro teorico del collasso del modello attraverso la lente delle leggi di scala. Scopriamo una vasta gamma di fenomeni di decadimento, analizzando la perdita di scala, lo spostamento della scala con il numero di generazioni, il "disapprendimento" delle competenze e il grokking quando si mescolano dati umani e sintetizzati. La nostra teoria è validata da esperimenti su larga scala con un trasformatore su un compito aritmetico e sulla generazione di testo utilizzando il modello di linguaggio di grandi dimensioni Llama2.
I modelli linguistici visivi (VLMs) hanno dimostrato capacità impressionanti in una varietà di compiti, dal ragionamento logico alla comprensione visiva. Ciò apre la porta a un'interazione più ricca con il mondo, ad esempio nel controllo robotico. Tuttavia, i VLMs producono solo output testuali, mentre il controllo robotico e altri compiti spaziali richiedono l'output di coordinate continue, azioni o traiettorie. Come possiamo consentire ai VLMs di gestire tali contesti senza un fine-tuning su dati specifici per il compito? In questo articolo, proponiamo un nuovo approccio di prompting visivo per i VLMs che chiamiamo Prompting with Iterative Visual Optimization (PIVOT), che trasforma i compiti in risposte iterative a domande visive. In ogni iterazione, l'immagine viene annotata con una rappresentazione visiva delle proposte a cui il VLM può fare riferimento (ad esempio, azioni robotiche candidate, localizzazioni o traiettorie). Il VLM seleziona quindi le migliori per il compito. Queste proposte vengono raffinate in modo iterativo, consentendo al VLM di individuare alla fine la migliore risposta disponibile. Investigiamo PIVOT sulla navigazione robotica nel mondo reale, sulla manipolazione nel mondo reale da immagini, sul seguire istruzioni in simulazione e su ulteriori compiti di inferenza spaziale come la localizzazione. Troviamo, forse sorprendentemente, che il nostro approccio consente il controllo zero-shot di sistemi robotici senza alcun dato di addestramento robotico, la navigazione in una varietà di ambienti e altre capacità. Sebbene le prestazioni attuali siano lontane dall'essere perfette, il nostro lavoro evidenzia potenzialità e limiti di questo nuovo regime e mostra un approccio promettente per i VLMs su scala Internet nei domini del ragionamento robotico e spaziale. Sito web: pivot-prompt.github.io e HuggingFace: https://huggingface.co/spaces/pivot-prompt/pivot-prompt-demo.
Il riso è uno degli aspetti più espressivi e naturali del linguaggio umano, in grado di trasmettere emozioni, segnali sociali e umorismo. Tuttavia, la maggior parte dei sistemi di sintesi vocale (TTS) non è in grado di produrre suoni di riso realistici e appropriati, limitando le loro applicazioni e l'esperienza utente. Sebbene siano stati compiuti sforzi precedenti per generare risate naturali, questi non sono riusciti a controllare con precisione il tempismo e la varietà delle risate da generare. In questo lavoro, proponiamo ELaTE, un TTS zero-shot in grado di generare discorsi con risate naturali di qualsiasi speaker basandosi su un breve prompt audio, con un controllo preciso del tempismo e dell'espressione della risata. Nello specifico, ELaTE utilizza il prompt audio per imitare le caratteristiche vocali, il prompt testuale per indicare il contenuto del discorso generato e l'input per controllare l'espressione della risata, che può essere rappresentato dai tempi di inizio e fine della risata o da un ulteriore prompt audio contenente la risata da imitare. Sviluppiamo il nostro modello basandoci su un TTS zero-shot fondato sul conditional flow matching, e lo perfezioniamo utilizzando una rappresentazione a livello di frame proveniente da un rilevatore di risate come condizionamento aggiuntivo. Con un semplice schema per miscelare dati su piccola scala condizionati alle risate con dati di pre-addestramento su larga scala, dimostriamo che un modello TTS zero-shot pre-addestrato può essere facilmente perfezionato per generare risate naturali con una controllabilità precisa, senza perdere la qualità del modello TTS zero-shot pre-addestrato. Attraverso le valutazioni, mostriamo che ELaTE è in grado di generare discorsi con risate di qualità e controllabilità significativamente superiori rispetto ai modelli convenzionali. Visita https://aka.ms/elate/ per ascoltare esempi dimostrativi.
Per migliorare la competenza dei modelli linguistici nel ragionamento matematico attraverso il pretraining continuo, introduciamo una nuova strategia che sfrutta i modelli linguistici di base per la selezione autonoma dei dati. Diversamente dai tradizionali approcci di fine-tuning supervisionato o classificatori addestrati con dati annotati manualmente, il nostro metodo utilizza modelli linguistici meta-prompted come verificatori zero-shot per valutare e selezionare autonomamente contenuti matematici di alta qualità, e rilasciamo il dataset open-source curato AutoMathText, che comprende oltre 200GB di dati. Per dimostrare l'efficacia del nostro metodo, abbiamo eseguito un pretraining continuo su un modello linguistico Mistral da 7 miliardi di parametri utilizzando il dataset AutoMathText, ottenendo miglioramenti significativi nelle prestazioni downstream sul dataset MATH con una quantità di token ridotta di ordini di grandezza rispetto ai precedenti lavori di pretraining continuo. Il nostro metodo mostra un aumento di 2 volte nell'efficienza dei token di pretraining rispetto ai baseline, evidenziando il potenziale del nostro approccio nel potenziare le capacità di ragionamento matematico dei modelli. Il dataset AutoMathText è disponibile all'indirizzo https://huggingface.co/datasets/math-ai/AutoMathText. Il codice è disponibile all'indirizzo https://github.com/yifanzhang-pro/AutoMathText.
I modelli linguistici condizionati visivamente (VLMs) stanno vedendo una crescente adozione in applicazioni come il dialogo visivo, la comprensione delle scene e la pianificazione di compiti robotici; un'adozione che ha alimentato una ricchezza di nuovi modelli come LLaVa, InstructBLIP e PaLI-3. Nonostante il volume di nuove versioni, le decisioni chiave di progettazione relative alla pre-elaborazione delle immagini, all'architettura e all'ottimizzazione sono poco esplorate, rendendo difficile comprendere quali fattori influenzino le prestazioni del modello - una sfida ulteriormente complicata dalla mancanza di valutazioni oggettive e consistenti. Per colmare queste lacune, abbiamo prima compilato una suite di valutazioni standardizzate che coprono il risposte a domande visive, la localizzazione di oggetti dal linguaggio e set di sfide mirati che esplorano proprietà come l'allucinazione; valutazioni che forniscono una visione calibrata e dettagliata delle capacità di un VLM. In secondo luogo, abbiamo investigato rigorosamente i VLMs lungo assi di progettazione chiave, includendo rappresentazioni visive pre-addestrate e quantificando i compromessi nell'uso di modelli linguistici di base rispetto a quelli ottimizzati per istruzioni, tra gli altri. Abbiamo accompagnato la nostra analisi con tre contributi di risorse: (1) un framework unificato per la valutazione dei VLMs, (2) codice ottimizzato e flessibile per l'addestramento dei VLMs, e (3) checkpoint per tutti i modelli, inclusa una famiglia di VLMs su scala 7-13B che superano rigorosamente InstructBLIP e LLaVa v1.5, lo stato dell'arte nei VLMs open-source.
I modelli Mixture of Experts (MoE) sono emersi come una soluzione primaria per ridurre il costo computazionale dei Large Language Models. In questo lavoro, analizziamo le loro proprietà di scalabilità, incorporando una gamma ampliata di variabili. Nello specifico, introduciamo un nuovo iperparametro, la granularità, il cui aggiustamento consente un controllo preciso sulla dimensione degli esperti. Basandoci su questo, stabiliamo leggi di scalabilità per MoE a grana fine, tenendo conto del numero di token di addestramento, della dimensione del modello e della granularità. Sfruttando queste leggi, deriviamo la configurazione ottimale di addestramento per un dato budget computazionale. I nostri risultati non solo mostrano che i modelli MoE superano costantemente i Transformer densi, ma evidenziano anche che il divario di efficienza tra modelli densi e MoE si amplia man mano che aumentiamo la dimensione del modello e il budget di addestramento. Inoltre, dimostriamo che la pratica comune di impostare la dimensione degli esperti in MoE per rispecchiare il livello feed-forward non è ottimale per quasi nessun budget computazionale.
In questo lavoro, studiamo il problema del reward hacking sulla lunghezza della risposta, una sfida che emerge nel Reinforcement Learning from Human Feedback (RLHF) applicato ai LLM. Una risposta ben formattata, verbosa ma meno utile da parte degli LLM può spesso ingannare gli stessi LLM o persino i valutatori umani, ottenendo punteggi elevati. Lo stesso problema si presenta anche per alcuni modelli di reward nel RL. Per affrontare le sfide sia nell'addestramento che nella valutazione, stabiliamo un protocollo di valutazione più affidabile per confrontare diverse configurazioni di addestramento, che esamina il compromesso tra il punteggio di valutazione dell'LLM e la lunghezza della risposta ottenuta variando gli iperparametri di addestramento. Sulla base di questa valutazione, conduciamo studi su larga scala, i cui risultati forniscono approfondimenti sull'efficacia degli iperparametri e delle tecniche utilizzate nel RL per mitigare il bias della lunghezza. Proponiamo inoltre di migliorare il modello di reward addestrando congiuntamente due testate lineari su rappresentazioni di feature condivise per prevedere i reward: una addestrata a correlarsi con la lunghezza e l'altra addestrata a decorrelarsi dalla lunghezza, concentrandosi quindi maggiormente sul contenuto effettivo. Successivamente, scartiamo la testata della lunghezza nel RL per prevenire il reward hacking sulla lunghezza. Gli esperimenti dimostrano che il nostro approccio elimina quasi completamente la correlazione del reward con la lunghezza e migliora significativamente la politica ottenuta.
Presentiamo LiRank, un framework di ranking su larga scala sviluppato da LinkedIn che porta in produzione architetture di modellazione e metodi di ottimizzazione all'avanguardia. Riveliamo diversi miglioramenti nella modellazione, tra cui il Residual DCN, che aggiunge connessioni di attenzione e residui alla famosa architettura DCNv2. Condividiamo approfondimenti su come combinare e ottimizzare architetture SOTA per creare un modello unificato, includendo Dense Gating, Transformers e Residual DCN. Proponiamo inoltre tecniche innovative per la calibrazione e descriviamo come abbiamo messo in produzione metodi di esplorazione/sfruttamento basati sul deep learning. Per consentire un servizio efficace e di livello produttivo per modelli di ranking di grandi dimensioni, dettagliamo come addestrare e comprimere i modelli utilizzando la quantizzazione e la compressione del vocabolario. Forniamo dettagli sulla configurazione di distribuzione per casi d'uso su larga scala come il ranking del Feed, le raccomandazioni di lavoro e la previsione del tasso di clic (CTR) per gli annunci. Riassumiamo le nostre esperienze derivanti da vari test A/B, evidenziando gli approcci tecnici più efficaci. Queste idee hanno contribuito a miglioramenti relativi delle metriche in tutto LinkedIn: +0,5% nelle sessioni dei membri nel Feed, +1,76% nelle candidature qualificate per la ricerca e le raccomandazioni di lavoro e +4,3% nel CTR degli annunci. Speriamo che questo lavoro possa fornire spunti pratici e soluzioni per i professionisti interessati a sfruttare sistemi di ranking su larga scala basati sul deep learning.
Presentiamo GALA3D, GAussiane 3D generative con controllo guidato dal LAyout, per un'efficace generazione compositiva da testo a 3D. Utilizziamo inizialmente modelli linguistici di grandi dimensioni (LLM) per generare il layout iniziale e introduciamo una rappresentazione 3D Gaussiana guidata dal layout per la generazione di contenuti 3D con vincoli geometrici adattivi. Proponiamo quindi un meccanismo di ottimizzazione compositiva oggetto-scena con diffusione condizionata per generare in modo collaborativo scene 3D realistiche con geometria, texture, scala e interazioni accurate tra più oggetti, mentre simultaneamente aggiustiamo i prior di layout grezzi estratti dagli LLM per allinearli alla scena generata. Gli esperimenti dimostrano che GALA3D è un framework user-friendly, end-to-end per la generazione di contenuti 3D a livello di scena all'avanguardia e per l'editing controllabile, garantendo al contempo l'alta fedeltà delle entità a livello di oggetto all'interno della scena. I codici sorgente e i modelli saranno disponibili su https://gala3d.github.io/.
L'auto-allineamento è un metodo efficace per ridurre i costi dell'annotazione umana garantendo al contempo promettenti capacità del modello. Tuttavia, la maggior parte degli approcci attuali completa la raccolta dei dati e la fase di addestramento in un unico ciclo, rischiando di trascurare la capacità in continua evoluzione dei modelli auto-allineati. Ciò solleva una domanda cruciale: cosa accadrebbe se applicassimo un auto-allineamento con bootstrapping multiplo? Questa strategia migliorerebbe le prestazioni del modello o porterebbe a un rapido deterioramento? In questo articolo, la nostra esplorazione pionieristica approfondisce l'impatto del bootstrapping di auto-allineamento sui grandi modelli linguistici. I nostri risultati dimostrano che il bootstrapping di auto-allineamento supera significativamente l'approccio a ciclo singolo, garantendo la diversità dei dati attraverso l'apprendimento contestuale. Per sfruttare ulteriormente le potenzialità del bootstrapping, abbiamo studiato e modificato l'ordine di addestramento dei dati, ottenendo un miglioramento delle prestazioni del modello. Sulla base di queste scoperte, proponiamo il Step-On-Feet Tuning (SOFT), che sfrutta la capacità few-shot continuamente migliorata del modello per potenziare le prestazioni zero-shot o one-shot. Basandoci su una ricetta di addestramento "dal facile al difficile", proponiamo SOFT+, che migliora ulteriormente le prestazioni dell'auto-allineamento. I nostri esperimenti dimostrano l'efficienza di SOFT (SOFT+) in vari compiti di classificazione e generazione, evidenziando il potenziale del bootstrapping di auto-allineamento nel migliorare continuamente le prestazioni di allineamento del modello.
Introduciamo i Modelli di Feedback Linguistico (Language Feedback Models, LFMs) che identificano comportamenti desiderabili - azioni che aiutano a raggiungere i compiti specificati nelle istruzioni - per l'apprendimento per imitazione nel seguire le istruzioni. Per addestrare gli LFMs, otteniamo feedback da Modelli Linguistici di Grande Scala (Large Language Models, LLMs) su traiettorie visive verbalizzate in descrizioni linguistiche. In primo luogo, utilizzando gli LFMs per identificare comportamenti desiderabili da imitare, miglioriamo il tasso di completamento dei compiti rispetto a solide baseline di clonazione comportamentale in tre ambienti distinti di grounding linguistico (Touchdown, ScienceWorld e ALFWorld). In secondo luogo, gli LFMs superano l'uso di LLMs come esperti per prevedere direttamente le azioni, quando si controlla il numero di token di output degli LLMs. In terzo luogo, gli LFMs si generalizzano a ambienti non visti, migliorando il tasso di completamento dei compiti del 3,5-12,0% attraverso un round di adattamento. Infine, gli LFM possono essere modificati per fornire feedback interpretabili dall'uomo senza perdita di prestazioni, consentendo la verifica umana dei comportamenti desiderabili per l'apprendimento per imitazione.