Articoli di ricerca IA selezionati quotidianamente con traduzioni
La riproducibilità e la trasparenza dei modelli linguistici di grandi dimensioni sono cruciali per avanzare la ricerca aperta, garantire l'affidabilità dei risultati e consentire indagini sui dati e sui bias del modello, nonché sui potenziali rischi. A tal fine, rilasciamo OpenELM, un modello linguistico open all'avanguardia. OpenELM utilizza una strategia di scalatura strato per strato per allocare in modo efficiente i parametri all'interno di ciascuno strato del modello transformer, portando a una maggiore accuratezza. Ad esempio, con un budget di parametri di circa un miliardo, OpenELM mostra un miglioramento del 2,36% nell'accuratezza rispetto a OLMo, richiedendo 2 volte meno token di pre-addestramento. Diversamente dalle pratiche precedenti che forniscono solo i pesi del modello e il codice di inferenza, e pre-addestrano su dataset privati, il nostro rilascio include il framework completo per l'addestramento e la valutazione del modello linguistico su dataset pubblicamente disponibili, inclusi log di addestramento, checkpoint multipli e configurazioni di pre-addestramento. Rilasciamo anche il codice per convertire i modelli nella libreria MLX per l'inferenza e il fine-tuning su dispositivi Apple. Questo rilascio completo mira a potenziare e rafforzare la comunità di ricerca aperta, aprendo la strada a future iniziative di ricerca aperta. Il nostro codice sorgente, insieme ai pesi del modello pre-addestrato e alle ricette di addestramento, è disponibile all'indirizzo https://github.com/apple/corenet. Inoltre, i modelli \model possono essere trovati su HuggingFace all'indirizzo: https://huggingface.co/apple/OpenELM.
Le Sparse Mixtures of Experts (SMoE) aumentano la capacità del modello senza incrementi significativi nei costi di addestramento e inferenza, ma presentano due problematiche: (1) Bassa attivazione degli esperti, dove solo un piccolo sottoinsieme di esperti viene attivato per l'ottimizzazione. (2) Mancanza di capacità analitica fine per concetti semantici multipli all'interno dei singoli token. Proponiamo la Multi-Head Mixture-of-Experts (MH-MoE), che utilizza un meccanismo multi-head per suddividere ogni token in più sub-token. Questi sub-token vengono poi assegnati e processati da un insieme diversificato di esperti in parallelo, e reintegrati senza soluzione di continuità nella forma originale del token. Il meccanismo multi-head consente al modello di prestare attenzione collettivamente alle informazioni provenienti da vari spazi di rappresentazione all'interno di esperti diversi, migliorando significativamente l'attivazione degli esperti, approfondendo così la comprensione del contesto e alleviando l'overfitting. Inoltre, la nostra MH-MoE è semplice da implementare e si disaccoppia da altri metodi di ottimizzazione SMoE, rendendola facile da integrare con altri modelli SMoE per migliorarne le prestazioni. Risultati sperimentali estesi su tre task: modellazione del linguaggio focalizzata sull'inglese, modellazione del linguaggio multilingue e modellazione multi-modale mascherata, dimostrano l'efficacia di MH-MoE.
Questo rapporto tecnico introduce Pegasus-1, un modello linguistico multimodale specializzato nella comprensione e interazione con contenuti video attraverso il linguaggio naturale. Pegasus-1 è progettato per affrontare le sfide uniche poste dai dati video, come l'interpretazione delle informazioni spazio-temporali, per offrire una comprensione sfumata dei contenuti video di varie lunghezze. Questo rapporto tecnico fornisce una panoramica dell'architettura di Pegasus-1, delle strategie di addestramento e delle sue prestazioni nei benchmark relativi alla conversazione video, al question answering video zero-shot e alla sintesi video. Esploriamo inoltre le caratteristiche qualitative di Pegasus-1, dimostrando le sue capacità così come i suoi limiti, al fine di fornire ai lettori una visione equilibrata del suo stato attuale e della sua direzione futura.
I recenti progressi nella sintesi vocale su larga scala zero-shot sono stati significativamente avanzati dai modelli linguistici e dai modelli di diffusione. Tuttavia, il processo di generazione di entrambi i metodi è lento e computazionalmente intensivo. La sintesi vocale efficiente che utilizza un budget computazionale inferiore per raggiungere una qualità paragonabile ai lavori precedenti rimane una sfida significativa. In questo articolo, presentiamo FlashSpeech, un sistema di sintesi vocale su larga scala zero-shot con un tempo di inferenza pari a circa il 5% rispetto ai lavori precedenti. FlashSpeech è basato sul modello di consistenza latente e applica un nuovo approccio di addestramento di consistenza avversaria che può essere addestrato da zero senza la necessità di un modello di diffusione pre-addestrato come insegnante. Inoltre, un nuovo modulo generatore di prosodia migliora la diversità della prosodia, rendendo il ritmo del parlato più naturale. I processi di generazione di FlashSpeech possono essere raggiunti in modo efficiente con uno o due passaggi di campionamento mantenendo un'elevata qualità audio e un'elevata somiglianza con il prompt audio per la generazione vocale zero-shot. I nostri risultati sperimentali dimostrano le prestazioni superiori di FlashSpeech. In particolare, FlashSpeech può essere circa 20 volte più veloce rispetto ad altri sistemi di sintesi vocale zero-shot mantenendo prestazioni comparabili in termini di qualità vocale e somiglianza. Inoltre, FlashSpeech dimostra la sua versatilità eseguendo in modo efficiente compiti come la conversione vocale, l'editing del parlato e il campionamento vocale diversificato. I campioni audio possono essere trovati su https://flashspeech.github.io/.
I modelli linguistici di grandi dimensioni (LLMs) hanno compiuto progressi significativi nell'elaborazione di contesti estesi, con la cache Key-Value (KV) che svolge un ruolo cruciale nel migliorare le loro prestazioni. Tuttavia, la crescita della cache KV in risposta all'aumento della lunghezza dell'input pone sfide all'efficienza della memoria e del tempo. Per affrontare questo problema, questo articolo introduce SnapKV, un approccio innovativo e privo di fine-tuning che riduce efficacemente le dimensioni della cache KV mantenendo prestazioni comparabili nelle applicazioni reali. Abbiamo scoperto che ogni testa di attenzione nel modello si concentra costantemente su specifiche caratteristiche di attenzione del prompt durante la generazione. Nel frattempo, questo schema robusto può essere ottenuto da una finestra di "osservazione" situata alla fine dei prompt. Basandoci su questa intuizione, SnapKV comprime automaticamente le cache KV selezionando posizioni KV importanti e raggruppate per ogni testa di attenzione. Il nostro approccio riduce significativamente il sovraccarico computazionale e l'impronta di memoria in crescita durante l'elaborazione di sequenze di input lunghe. Nello specifico, SnapKV raggiunge una velocità di decodifica costante con un aumento di 3,6x nella velocità di generazione e un miglioramento di 8,2x nell'efficienza della memoria rispetto alla baseline quando elabora input di 16K token. Allo stesso tempo, mantiene prestazioni comparabili ai modelli baseline su 16 dataset di sequenze lunghe. Inoltre, SnapKV può elaborare fino a 380K token di contesto su una singola GPU A100-80GB utilizzando l'implementazione di HuggingFace con modifiche minime, mostrando solo un calo di precisione trascurabile nel test Needle-in-a-Haystack. Ulteriori studi approfonditi suggeriscono il potenziale di SnapKV per applicazioni pratiche.
I modelli di diffusione (DMs) si sono affermati come l'approccio più avanzato per la modellazione generativa nel dominio visivo e oltre. Un aspetto critico dei DMs è la loro lentezza nel campionamento, che si basa su molte valutazioni sequenziali di funzioni attraverso grandi reti neurali. Il campionamento dai DMs può essere visto come la risoluzione di un'equazione differenziale attraverso un insieme discretizzato di livelli di rumore noto come pianificazione del campionamento. Mentre i lavori precedenti si sono concentrati principalmente sulla derivazione di risolutori efficienti, poca attenzione è stata dedicata alla ricerca di pianificazioni di campionamento ottimali, e l'intera letteratura si affida a euristiche artigianali. In questo lavoro, per la prima volta, proponiamo un approccio generale e principiato per ottimizzare le pianificazioni di campionamento dei DMs al fine di ottenere output di alta qualità, chiamato Align Your Steps. Sfruttiamo metodi del calcolo stocastico e troviamo pianificazioni ottimali specifiche per diversi risolutori, DMs addestrati e dataset. Valutiamo il nostro nuovo approccio su diversi benchmark di sintesi di immagini, video e dati giocattolo 2D, utilizzando una varietà di campionatori diversi, e osserviamo che le nostre pianificazioni ottimizzate superano le pianificazioni artigianali precedenti in quasi tutti gli esperimenti. Il nostro metodo dimostra il potenziale inesplorato dell'ottimizzazione della pianificazione del campionamento, specialmente nel regime di sintesi a pochi passi.
Molti lavori esistenti hanno analizzato le capacità dell'architettura transformer descrivendone la capacità rappresentativa attraverso modelli formali di calcolo. Tuttavia, finora l'attenzione si è concentrata sull'analisi dell'architettura in termini di accettazione del linguaggio. Sosteniamo che questo sia un problema poco adatto nello studio dei modelli linguistici (LM), che per definizione sono distribuzioni di probabilità su stringhe. In questo articolo, ci concentriamo sulla relazione tra i transformer LM e i modelli linguistici n-gram, una classe semplice e storicamente rilevante di modelli linguistici. Dimostriamo che i transformer LM che utilizzano meccanismi di attenzione hard o sparsa possono rappresentare esattamente qualsiasi modello linguistico n-gram, fornendoci un limite inferiore concreto sulla loro capacità rappresentativa probabilistica. Questo rappresenta un primo passo verso la comprensione dei meccanismi che i transformer LM possono utilizzare per rappresentare distribuzioni di probabilità su stringhe.