Articoli di ricerca IA selezionati quotidianamente con traduzioni
Questo articolo affronta la crescente necessità di modelli linguistici di grandi dimensioni (LLM) efficienti su dispositivi mobili, spinta dall'aumento dei costi del cloud e dalle preoccupazioni relative alla latenza. Ci concentriamo sulla progettazione di LLM di alta qualità con meno di un miliardo di parametri, una scelta pratica per il deployment su dispositivi mobili. Contrariamente alla convinzione prevalente che enfatizza il ruolo cruciale dei dati e della quantità di parametri nel determinare la qualità del modello, la nostra indagine sottolinea l'importanza dell'architettura del modello per LLM di scala inferiore al miliardo. Sfruttando architetture profonde e sottili, insieme alla condivisione degli embedding e ai meccanismi di attenzione a query raggruppate, stabiliamo una solida rete di base denominata MobileLLM, che ottiene un notevole incremento di accuratezza del 2,7%/4,3% rispetto ai precedenti modelli all'avanguardia da 125M/350M. Inoltre, proponiamo un approccio immediato di condivisione dei pesi a blocchi senza aumento delle dimensioni del modello e con solo un marginale sovraccarico di latenza. I modelli risultanti, denominati MobileLLM-LS, dimostrano un ulteriore miglioramento dell'accuratezza dello 0,7%/0,8% rispetto a MobileLLM 125M/350M. Inoltre, la famiglia di modelli MobileLLM mostra significativi miglioramenti rispetto ai precedenti modelli di scala inferiore al miliardo nei benchmark di chat e dimostra una correttezza vicina a LLaMA-v2 7B nelle attività di chiamata API, evidenziando la capacità dei modelli di piccole dimensioni per i comuni casi d'uso su dispositivo.
Presentiamo Genie, il primo ambiente interattivo generativo addestrato in modo non supervisionato a partire da video non etichettati provenienti da Internet. Il modello può essere stimolato a generare una varietà infinita di mondi virtuali controllabili tramite azioni, descritti attraverso testo, immagini sintetiche, fotografie e persino schizzi. Con 11 miliardi di parametri, Genie può essere considerato un modello fondazionale per i mondi virtuali. È composto da un tokenizzatore video spaziotemporale, un modello dinamico autoregressivo e un modello di azione latente semplice e scalabile. Genie consente agli utenti di agire negli ambienti generati su base fotogramma per fotogramma, nonostante sia stato addestrato senza etichette di azioni verificate o altri requisiti specifici del dominio tipicamente presenti nella letteratura sui modelli di mondi. Inoltre, lo spazio di azione latente appreso facilita l'addestramento di agenti per imitare comportamenti da video non visti, aprendo la strada alla formazione di agenti generalisti del futuro.
Questo articolo indaga la radioattività dei testi generati da LLM, ovvero se sia possibile rilevare che tali input siano stati utilizzati come dati di addestramento. Metodi convenzionali come l'inferenza di appartenenza possono eseguire questo rilevamento con un certo livello di accuratezza. Dimostriamo che i dati di addestramento contrassegnati da watermark lasciano tracce più facili da rilevare e molto più affidabili rispetto all'inferenza di appartenenza. Colleghiamo il livello di contaminazione alla robustezza del watermark, alla sua proporzione nel set di addestramento e al processo di fine-tuning. In particolare, dimostriamo che l'addestramento su istruzioni sintetiche contrassegnate da watermark può essere rilevato con alta confidenza (p-value < 1e-5) anche quando solo il 5% del testo di addestramento è contrassegnato. Pertanto, il watermarking degli LLM, originariamente progettato per rilevare testi generati da macchine, offre la capacità di identificare facilmente se gli output di un LLM contrassegnato da watermark siano stati utilizzati per il fine-tuning di un altro LLM.
I metodi recenti hanno dimostrato che i Large Language Model (LLM) possono risolvere compiti di ragionamento in modo più efficace quando vengono incoraggiati a risolvere prima i sottocompiti del compito principale. In questo articolo proponiamo una strategia simile che suddivide i compiti di ragionamento in una fase di scomposizione del problema e una fase di risoluzione del problema, mostrando che questa strategia è in grado di superare una soluzione a stadio singolo. Inoltre, ipotizziamo che la scomposizione dovrebbe essere più facile da distillare in un modello più piccolo rispetto alla risoluzione del problema, poiché quest'ultima richiede grandi quantità di conoscenza di dominio, mentre la prima richiede solo l'apprendimento di strategie generali di risoluzione dei problemi. Proponiamo metodi per distillare queste due capacità e valutiamo il loro impatto sui risultati del ragionamento e sui costi di inferenza. Troviamo che è possibile distillare la fase di scomposizione del problema e allo stesso tempo ottenere una buona generalizzazione tra compiti, dataset e modelli. Tuttavia, è più difficile distillare la capacità di risoluzione dei problemi senza perdere prestazioni, e il modello distillato risultante fatica a generalizzare. Questi risultati indicano che utilizzando modelli più piccoli e distillati per la scomposizione dei problemi in combinazione con LLM per la risoluzione dei problemi, possiamo ottenere ragionamenti con inferenze efficienti in termini di costi e adattamento locale.
In questo lavoro dimostriamo che il compromesso tra dimensione e accuratezza nella quantizzazione delle reti neurali può essere significativamente migliorato aumentando la dimensionalità della quantizzazione. Proponiamo il metodo GPTVQ, un nuovo approccio rapido per la quantizzazione vettoriale (VQ) post-addestramento che si adatta bene ai Large Language Models (LLM). Il nostro metodo alterna la quantizzazione di una o più colonne con aggiornamenti ai pesi rimanenti non quantizzati, utilizzando informazioni dall'Hessiano della ricostruzione dell'errore quadratico medio (MSE) per ogni livello. I codebook di quantizzazione vengono inizializzati utilizzando una versione efficiente e data-aware dell'algoritmo EM. I codebook vengono poi aggiornati e ulteriormente compressi mediante quantizzazione intera e compressione basata su SVD. GPTVQ stabilisce un nuovo stato dell'arte nel compromesso tra dimensione e accuratezza su un'ampia gamma di LLM come Llama-v2 e Mistral. Inoltre, il nostro metodo è efficiente: su un singolo H100 richiede tra le 3 e le 11 ore per elaborare un modello Llamav2-70B, a seconda dell'impostazione di quantizzazione. Infine, con tempi di decompressione VQ su una CPU mobile, dimostriamo che la VQ porta a una latenza migliorata rispetto all'utilizzo di un formato intero a 4 bit.
L'auto-attenzione è un componente essenziale dei grandi modelli linguistici (LLM), ma rappresenta una fonte significativa di latenza durante l'inferenza per sequenze lunghe. Negli scenari di servizio multi-tenant per LLM, il costo computazionale e di operazioni di memoria dell'auto-attenzione può essere ottimizzato sfruttando la probabilità che più richieste LLM condividano prefissi di prompt di sistema. In questo articolo, introduciamo ChunkAttention, un modulo di auto-attenzione consapevole dei prefissi che può rilevare prefissi di prompt corrispondenti tra più richieste e condividere i loro tensori chiave/valore in memoria durante l'esecuzione, migliorando così l'utilizzo della memoria della cache KV. Questo è ottenuto suddividendo i tensori chiave/valore monolitici in blocchi più piccoli e strutturandoli in un albero dei prefissi ausiliario. Di conseguenza, sulla base della cache KV basata sull'albero dei prefissi, progettiamo un kernel di auto-attenzione efficiente, in cui è implementato un algoritmo di partizione a due fasi per migliorare la località dei dati durante il calcolo dell'auto-attenzione in presenza di prompt di sistema condivisi. Gli esperimenti dimostrano che ChunkAttention può accelerare il kernel di auto-attenzione di 3,2-4,8 volte rispetto all'implementazione all'avanguardia, con la lunghezza del prompt di sistema compresa tra 1024 e 4096.
Questo articolo esplora l'impatto dell'estensione della lunghezza degli input sulle capacità dei Large Language Models (LLM). Nonostante i recenti progressi nei LLM, la loro coerenza prestazionale su diverse lunghezze di input non è ben compresa. Investigiamo questo aspetto introducendo un nuovo framework di ragionamento a domande e risposte, specificamente progettato per valutare l'impatto della lunghezza dell'input. Isoliamo l'effetto della lunghezza dell'input utilizzando multiple versioni dello stesso campione, ciascuna estesa con padding di lunghezze, tipi e posizioni diversi. I nostri risultati mostrano un degrado significativo nelle prestazioni di ragionamento dei LLM a lunghezze di input molto più brevi rispetto al loro massimo tecnico. Dimostriamo che la tendenza al degrado appare in ogni versione del nostro dataset, sebbene con intensità diverse. Inoltre, il nostro studio rivela che le metriche tradizionali di perplessità non correlano con le prestazioni dei LLM nei compiti di ragionamento con input lunghi. Analizziamo i nostri risultati e identifichiamo modalità di fallimento che possono servire come utili guide per la ricerca futura, potenzialmente informando strategie per affrontare le limitazioni osservate nei LLM.
Gli agenti autonomi potenziati da modelli linguistici di grandi dimensioni (LLM) hanno attirato un'attenzione significativa nella ricerca. Tuttavia, sfruttare appieno il potenziale degli LLM per compiti basati su agenti presenta sfide intrinseche a causa della natura eterogenea delle diverse fonti di dati che presentano traiettorie multi-turn. In questo articolo, introduciamo AgentOhana come una soluzione completa per affrontare queste sfide. AgentOhana aggrega le traiettorie degli agenti da ambienti distinti, coprendo una vasta gamma di scenari. Meticolosamente standardizza e unifica queste traiettorie in un formato coerente, semplificando la creazione di un caricatore di dati generico ottimizzato per l'addestramento degli agenti. Sfruttando l'unificazione dei dati, la nostra pipeline di addestramento mantiene un equilibrio tra le diverse fonti di dati e preserva la casualità indipendente tra i dispositivi durante la partizione del dataset e l'addestramento del modello. Inoltre, presentiamo xLAM-v0.1, un modello di azione di grandi dimensioni progettato per agenti AI, che dimostra prestazioni eccezionali su vari benchmark.
C'è una crescente necessità che i Modelli Linguistici di Grande Dimensione (LLM) utilizzino efficacemente strumenti e interfacce di programmazione applicativa (API) esterne per pianificare e completare compiti. Di conseguenza, c'è un enorme interesse verso metodi che possano acquisire quantità sufficienti di dati di addestramento e test che includano chiamate a strumenti/API. Due linee di ricerca sono emerse come strategie predominanti per affrontare questa sfida. La prima si è concentrata su tecniche di generazione di dati sintetici, mentre la seconda ha riguardato la cura di dataset vicini al compito che possono essere trasformati in attività basate su API/strumenti. In questo articolo, ci concentriamo sul compito di identificare, curare e trasformare dataset esistenti e, a sua volta, introduciamo API-BLEND, un ampio corpus per l'addestramento e il test sistematico di LLM potenziati da strumenti. I dataset simulano scenari del mondo reale che coinvolgono attività legate alle API, come il rilevamento di API/strumenti, il riempimento di slot e la sequenziazione delle API rilevate. Dimostriamo l'utilità del dataset API-BLEND sia per l'addestramento che per il benchmarking.
La generazione condizionata del movimento umano è un argomento importante con molte applicazioni nella realtà virtuale, nei giochi e nella robotica. Mentre i lavori precedenti si sono concentrati sulla generazione di movimenti guidati da testo, musica o scene, questi tipicamente producono movimenti isolati confinati a brevi durate. Noi, invece, affrontiamo la generazione di sequenze lunghe e continue guidate da una serie di descrizioni testuali variabili. In questo contesto, introduciamo FlowMDM, il primo modello basato su diffusione che genera Composizioni di Movimento Umano (HMC) senza alcuna post-elaborazione o passaggi ridondanti di rimozione del rumore. Per questo, introduciamo le Blended Positional Encodings, una tecnica che sfrutta sia le codifiche posizionali assolute che quelle relative nella catena di rimozione del rumore. Più specificamente, la coerenza globale del movimento viene recuperata nella fase assoluta, mentre transizioni fluide e realistiche vengono costruite nella fase relativa. Di conseguenza, otteniamo risultati all'avanguardia in termini di accuratezza, realismo e fluidità sui dataset Babel e HumanML3D. FlowMDM eccelle quando viene addestrato con una sola descrizione per sequenza di movimento grazie al suo Pose-Centric Cross-ATtention, che lo rende robusto contro descrizioni testuali variabili al momento dell'inferenza. Infine, per affrontare i limiti delle metriche HMC esistenti, proponiamo due nuove metriche: il Picco di Scatto (Peak Jerk) e l'Area Sotto lo Scatto (Area Under the Jerk), per rilevare transizioni brusche.