Articoli di ricerca IA selezionati quotidianamente con traduzioni
Sebbene i Large Language Model (LLM) dimostrino capacità impressionanti nella generazione di testo, riscontriamo che la loro abilità non è ancora stata generalizzata alla musica, il linguaggio creativo dell'umanità. Introduciamo ChatMusician, un LLM open-source che integra capacità musicali intrinseche. Si basa su pre-addestramento continuo e fine-tuning di LLaMA2 su una rappresentazione musicale compatibile con il testo, la notazione ABC, dove la musica è trattata come una seconda lingua. ChatMusician può comprendere e generare musica utilizzando un tokenizer di testo puro, senza alcuna struttura neurale o tokenizer multimodale esterno. È interessante notare che dotare il modello di abilità musicali non compromette le capacità linguistiche, raggiungendo persino un punteggio MMLU leggermente più alto. Il nostro modello è in grado di comporre musica ben strutturata e di lunga durata, condizionata da testi, accordi, melodie, motivi, forme musicali, ecc., superando la baseline di GPT-4. Sul nostro benchmark curato meticolosamente per la comprensione musicale a livello universitario, MusicTheoryBench, ChatMusician supera LLaMA2 e GPT-3.5 in uno scenario zero-shot con un margine significativo. Il nostro lavoro rivela che i LLM possono essere un eccellente compressore per la musica, ma rimane ancora un territorio significativo da conquistare. Rilasciamo il nostro corpus musica-linguaggio da 4B token, MusicPile, il benchmark MusicTheoryBench raccolto, il codice, il modello e la demo su GitHub.
Presentiamo Nemotron-4 15B, un modello linguistico multilingue di grandi dimensioni da 15 miliardi di parametri, addestrato su 8 trilioni di token di testo. Nemotron-4 15B dimostra prestazioni solide quando valutato su compiti in inglese, multilingue e di codifica: supera tutti i modelli open esistenti di dimensioni simili in 4 su 7 aree di valutazione downstream e raggiunge prestazioni competitive rispetto ai principali modelli open nelle restanti. In particolare, Nemotron-4 15B mostra le migliori capacità multilingue tra tutti i modelli di dimensioni simili, superando persino modelli oltre quattro volte più grandi e quelli esplicitamente specializzati per compiti multilingue.
Mentre l'addestramento di grandi modelli linguistici (LLM) da zero può effettivamente portare a modelli con capacità e punti di forza distinti, questo approccio comporta costi sostanziali e può portare a una potenziale ridondanza nelle competenze. Una strategia alternativa è combinare LLM esistenti in un LLM più robusto, riducendo così la necessità di un costoso pre-addestramento. Tuttavia, a causa delle diverse architetture degli LLM, la fusione diretta dei parametri si rivela impraticabile. Recentemente, FuseLLM ha introdotto il concetto di fusione della conoscenza per trasferire il sapere collettivo di più LLM strutturalmente variati in un LLM target attraverso un addestramento continuo leggero. In questo rapporto, estendiamo la scalabilità e la flessibilità del framework FuseLLM per realizzare la fusione di LLM di chat, dando vita a FuseChat. FuseChat comprende due fasi principali. In primo luogo, eseguiamo la fusione della conoscenza per LLM sorgente con strutture e dimensioni variate, ottenendo così più LLM target con struttura e dimensione identiche attraverso un fine-tuning leggero. Successivamente, questi LLM target vengono fusi nello spazio dei parametri, dove proponiamo un metodo innovativo per determinare i pesi di fusione basato sul rapporto di variazione delle matrici dei parametri prima e dopo il fine-tuning. Validiamo il nostro approccio utilizzando tre importanti LLM di chat con architetture e dimensioni diverse, ovvero NH2-Mixtral-8x7B, NH2-Solar-10.7B e OpenChat-3.5-7B. I risultati sperimentali in vari domini di chat dimostrano la superiorità di \textsc{FuseChat-7B} rispetto a un'ampia gamma di LLM di chat alle scale 7B e 34B, superando persino GPT-3.5 (marzo) e avvicinandosi a Mixtral-8x7B-Instruct. Il nostro codice, i pesi del modello e i dati sono accessibili pubblicamente all'indirizzo https://github.com/fanqiwan/FuseLLM.
Presentiamo la progettazione, l'implementazione e l'esperienza ingegneristica nella costruzione e nel deployment di MegaScale, un sistema di produzione per l'addestramento di modelli linguistici di grandi dimensioni (LLM) su una scala superiore a 10.000 GPU. L'addestramento di LLM a questa scala comporta sfide senza precedenti in termini di efficienza e stabilità del training. Adottiamo un approccio full-stack che co-progetta i componenti algoritmici e di sistema attraverso la progettazione dei blocchi del modello e dell'ottimizzatore, la sovrapposizione di calcolo e comunicazione, l'ottimizzazione degli operatori, la pipeline dei dati e la regolazione delle prestazioni di rete. Mantenere un'elevata efficienza durante l'intero processo di addestramento (cioè, la stabilità) è una considerazione importante in produzione, data la lunga durata dei job di addestramento degli LLM. Molti problemi di stabilità complessi emergono solo su larga scala, e un'osservabilità approfondita è la chiave per affrontarli. Abbiamo sviluppato una serie di strumenti di diagnosi per monitorare i componenti del sistema e gli eventi in profondità nello stack, identificare le cause principali e derivare tecniche efficaci per ottenere tolleranza ai guasti e mitigare i ritardi. MegaScale raggiunge un'utilizzazione dei FLOP del modello (MFU) del 55,2% durante l'addestramento di un modello LLM da 175B su 12.288 GPU, migliorando l'MFU di 1,34x rispetto a Megatron-LM. Condividiamo la nostra esperienza operativa nell'identificazione e risoluzione di guasti e ritardi. Speriamo che, articolando i problemi e condividendo la nostra esperienza da una prospettiva sistemica, questo lavoro possa ispirare future ricerche sui sistemi LLM.
La Low-Rank Adaptation (LoRA) è ampiamente utilizzata nei modelli testo-immagine per la resa accurata di elementi specifici come personaggi distinti o stili unici nelle immagini generate. Tuttavia, i metodi esistenti incontrano difficoltà nel comporre efficacemente più LoRA, specialmente quando aumenta il numero di LoRA da integrare, ostacolando così la creazione di immagini complesse. In questo articolo, studiamo la composizione multi-LoRA attraverso una prospettiva centrata sul decoding. Presentiamo due metodi che non richiedono addestramento: LoRA Switch, che alterna tra diverse LoRA a ogni passo di denoising, e LoRA Composite, che incorpora simultaneamente tutte le LoRA per guidare una sintesi di immagini più coesa. Per valutare i metodi proposti, abbiamo istituito ComposLoRA, un nuovo e completo banco di prova come parte di questa ricerca. Esso presenta una gamma diversificata di categorie di LoRA con 480 set di composizione. Utilizzando un framework di valutazione basato su GPT-4V, i nostri risultati dimostrano un chiaro miglioramento delle prestazioni con i nostri metodi rispetto alla baseline prevalente, particolarmente evidente quando si aumenta il numero di LoRA in una composizione.
Le fonti di dati strutturati, come tabelle, grafici e database, rappresentano sorgenti di conoscenza onnipresenti. Nonostante le capacità dimostrate dai grandi modelli linguistici (LLM) nel trattamento del testo semplice, la loro competenza nell'interpretare e utilizzare dati strutturati rimane limitata. La nostra indagine rivela una carenza significativa nella capacità degli LLM di elaborare dati strutturati; ad esempio, ChatGPT si posiziona in media al 35% al di sotto dei modelli all'avanguardia (SoTA). Per potenziare le capacità di Structured Knowledge Grounding (SKG) negli LLM, abbiamo sviluppato un dataset completo per l'instruction tuning, composto da 1,1 milioni di esempi. Utilizzando questo dataset, abbiamo addestrato una serie di modelli, denominati StructLM, basati sull'architettura Code-LLaMA, con dimensioni che vanno da 7B a 34B parametri. La serie StructLM supera i modelli specifici per task su 14 dei 18 dataset valutati e stabilisce nuovi record SoTA in 7 task SKG. Inoltre, StructLM dimostra un'eccezionale generalizzazione su 6 nuovi task SKG. Contrariamente alle aspettative, osserviamo che l'aumento delle dimensioni del modello offre benefici marginali, con StructLM-34B che mostra solo lievi miglioramenti rispetto a StructLM-7B. Ciò suggerisce che il grounding della conoscenza strutturata rimane un compito impegnativo e richiede un design più innovativo per raggiungere un nuovo livello.
Studiamo se i Modelli Linguistici di Grandi Dimensioni (LLM) eseguano latentemente ragionamenti multi-hop con prompt complessi come "La madre del cantante di 'Superstition' è". Cerchiamo evidenza di un percorso di ragionamento latente in cui un LLM (1) identifica latentemente "il cantante di 'Superstition'" come Stevie Wonder, l'entità ponte, e (2) utilizza la sua conoscenza della madre di Stevie Wonder per completare il prompt. Analizziamo questi due hop individualmente e consideriamo la loro co-occorrenza come indicativa di un ragionamento multi-hop latente. Per il primo hop, testiamo se modificare il prompt per menzionare indirettamente l'entità ponte invece di qualsiasi altra entità aumenti il richiamo interno dell'LLM dell'entità ponte. Per il secondo hop, testiamo se aumentare questo richiamo faccia sì che l'LLM utilizzi meglio ciò che sa sull'entità ponte. Troviamo forti evidenze di ragionamento multi-hop latente per i prompt di certi tipi di relazioni, con il percorso di ragionamento utilizzato in più dell'80% dei prompt. Tuttavia, l'utilizzo è altamente contestuale, variando tra diversi tipi di prompt. Inoltre, in media, l'evidenza per il secondo hop e il percorso completo multi-hop è piuttosto moderata e sostanziale solo per il primo hop. Inoltre, troviamo una chiara tendenza di scalabilità con l'aumento delle dimensioni del modello per il primo hop di ragionamento ma non per il secondo hop. I nostri risultati sperimentali suggeriscono potenziali sfide e opportunità per lo sviluppo futuro e le applicazioni degli LLM.
"Più grande è meglio" è stata la tendenza predominante nel recente sviluppo dei Large Language Models (LLM). Tuttavia, i LLM non si adattano bene a scenari che richiedono elaborazione su dispositivo, efficienza energetica, basso consumo di memoria e rapidità di risposta. Questi requisiti sono cruciali per la privacy, la sicurezza e un dispiegamento sostenibile. Questo articolo esplora il paradigma "meno è più" affrontando la sfida di progettare Small Language Models (SLM) accurati ma efficienti per dispositivi con risorse limitate. Il nostro contributo principale è l'introduzione di uno SLM open-source accurato e completamente trasparente da 0,5 miliardi di parametri (0,5B), chiamato MobiLlama, che risponde alle esigenze specifiche del computing con risorse limitate, con un'enfasi su prestazioni migliorate e ridotte richieste di risorse. MobiLlama è un design di SLM che parte da un modello più grande e applica uno schema attento di condivisione dei parametri per ridurre sia i costi di pre-addestramento che quelli di dispiegamento. Il nostro lavoro si propone non solo di colmare il divario negli SLM open-source, ma anche di garantire la massima trasparenza, rendendo disponibile l'intera pipeline di dati di addestramento, il codice di addestramento, i pesi del modello e oltre 300 checkpoint insieme ai codici di valutazione all'indirizzo: https://github.com/mbzuai-oryx/MobiLlama.
Le impostazioni comparative (ad esempio, scelta a coppie, ranking a lista) sono state adottate da un'ampia gamma di studi soggettivi per la valutazione della qualità delle immagini (IQA), poiché standardizzano intrinsecamente i criteri di valutazione tra diversi osservatori e offrono risposte più chiare. In questo lavoro, estendiamo le capacità dei modelli multimodali di grandi dimensioni (LMM) emergenti per avanzare ulteriormente nel confronto della qualità visiva in contesti aperti, che 1) possono rispondere a domande a risposta aperta sul confronto di qualità; 2) possono fornire ragionamenti dettagliati oltre alle risposte dirette. A tal fine, proponiamo il Co-Instruct. Per addestrare questo primo comparatore di qualità visiva a risposta aperta open-source, raccogliamo il dataset Co-Instruct-562K da due fonti: (a) descrizioni della qualità di singole immagini fuse con LMM, (b) risposte del "docente" GPT-4V su dati non etichettati. Inoltre, per valutare meglio questa impostazione, proponiamo il MICBench, il primo benchmark sul confronto di più immagini per LMM. Dimostriamo che Co-Instruct non solo raggiunge un'accuratezza superiore del 30% rispetto ai migliori LMM open-source, ma supera anche GPT-4V (il suo docente), sia sui benchmark esistenti correlati che sul MICBench proposto. Il nostro modello è pubblicato su https://huggingface.co/q-future/co-instruct.
Man mano che i modelli linguistici di grandi dimensioni (LLM) diventano sempre più diffusi in molte applicazioni del mondo reale, comprendere e migliorare la loro robustezza agli input degli utenti è di fondamentale importanza. I metodi esistenti per identificare prompt avversari tendono a concentrarsi su domini specifici, mancano di diversità o richiedono annotazioni umane estese. Per affrontare queste limitazioni, presentiamo Rainbow Teaming, un approccio innovativo per produrre una raccolta diversificata di prompt avversari. Rainbow Teaming inquadra la generazione di prompt avversari come un problema di qualità-diversità e utilizza una ricerca aperta per generare prompt che siano sia efficaci che diversificati. Questo metodo può scoprire le vulnerabilità di un modello in un'ampia gamma di domini, tra cui, in questo articolo, sicurezza, risposta a domande e cybersecurity. Dimostriamo inoltre che il fine-tuning su dati sintetici generati da Rainbow Teaming migliora la sicurezza dei LLM all'avanguardia senza compromettere le loro capacità generali e l'utilità, aprendo la strada a un miglioramento continuo e aperto.