Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo LongLoRA, un approccio efficiente di fine-tuning che estende le dimensioni del contesto dei modelli linguistici pre-addestrati (LLM) con un costo computazionale limitato. Tipicamente, l'addestramento di LLM con contesti lunghi è computazionalmente costoso, richiedendo ore di training estese e risorse GPU. Ad esempio, l'addestramento su una lunghezza di contesto di 8192 richiede un costo computazionale 16 volte superiore nei livelli di self-attention rispetto a quello di 2048. In questo articolo, acceleriamo l'estensione del contesto dei LLM in due aspetti. Da un lato, sebbene sia necessaria un'attenzione globale densa durante l'inferenza, il fine-tuning del modello può essere effettuato in modo efficace ed efficiente mediante un'attenzione locale sparsa. La proposta shift short attention abilita efficacemente l'estensione del contesto, portando a un risparmio computazionale non banale con prestazioni simili al fine-tuning con attenzione standard. In particolare, può essere implementata con solo due righe di codice durante l'addestramento, pur rimanendo opzionale durante l'inferenza. Dall'altro lato, esploriamo il regime di fine-tuning efficiente in termini di parametri per l'espansione del contesto. In particolare, scopriamo che LoRA per l'estensione del contesto funziona bene sotto la premessa di embedding e normalizzazione addestrabili. LongLoRA dimostra risultati empirici solidi su vari task nei modelli LLaMA2 da 7B/13B a 70B. LongLoRA adotta LLaMA2 7B da un contesto di 4k a 100k, o LLaMA2 70B a 32k su una singola macchina con 8x A100. LongLoRA estende il contesto dei modelli mantenendo le loro architetture originali ed è compatibile con la maggior parte delle tecniche esistenti, come FlashAttention-2. Inoltre, per rendere LongLoRA pratico, abbiamo raccolto un dataset, LongQA, per il fine-tuning supervisionato. Esso contiene oltre 3k coppie domanda-risposta con contesto lungo.
Il Transformer è apparso inizialmente nel campo dell'elaborazione del linguaggio naturale ed è stato successivamente adattato al dominio della visione artificiale, dove ha dimostrato prestazioni eccellenti nelle attività visive. Tuttavia, recentemente, la Retentive Network (RetNet) è emersa come un'architettura con il potenziale di sostituire il Transformer, attirando un'ampia attenzione nella comunità NLP. Pertanto, ci siamo posti la domanda se trasferire l'idea della RetNet alla visione possa portare anche a prestazioni eccezionali nelle attività visive. Per affrontare questa questione, abbiamo combinato RetNet e Transformer per proporre RMT. Ispirati da RetNet, abbiamo introdotto un decadimento esplicito nel backbone visivo di RMT, portando conoscenze pregresse relative alle distanze spaziali nel modello di visione. Questo prior spaziale legato alla distanza consente un controllo esplicito dell'intervallo di token a cui ogni token può prestare attenzione. Inoltre, per ridurre il costo computazionale della modellazione globale, abbiamo scomposto questo processo lungo i due assi coordinati dell'immagine. Abbondanti esperimenti hanno dimostrato che il nostro RMT mostra prestazioni eccezionali in varie attività di visione artificiale. Ad esempio, RMT raggiunge un'accuratezza Top1 dell'84,1% su ImageNet-1k utilizzando appena 4,5G FLOPs. Per quanto ne sappiamo, tra tutti i modelli, RMT raggiunge la più alta accuratezza Top1 quando i modelli hanno dimensioni simili e sono addestrati con la stessa strategia. Inoltre, RMT supera significativamente i backbone visivi esistenti in attività downstream come il rilevamento di oggetti, la segmentazione di istanze e la segmentazione semantica. Il nostro lavoro è ancora in corso.
I modelli linguistici generativi di grandi dimensioni (LLM) hanno raggiunto progressi significativi in vari compiti di NLP. Tuttavia, questi progressi non si sono riflessi nel compito di traduzione, specialmente per modelli di dimensioni moderate (ad esempio, 7B o 13B parametri), che rimangono ancora indietro rispetto ai tradizionali modelli di traduzione supervisionati encoder-decoder. Studi precedenti hanno tentato di migliorare le capacità di traduzione di questi LLM moderati, ma i guadagni ottenuti sono stati limitati. In questo studio, proponiamo un nuovo approccio di fine-tuning per LLM specificamente progettato per il compito di traduzione, eliminando la necessità dei dati paralleli abbondanti su cui si basano tradizionalmente i modelli di traduzione. Il nostro approccio consiste in due fasi di fine-tuning: un iniziale fine-tuning su dati monolingue seguito da un successivo fine-tuning su un piccolo insieme di dati paralleli di alta qualità. Introduciamo l'LLM sviluppato attraverso questa strategia come Advanced Language Model-based trAnslator (ALMA). Basandoci su LLaMA-2 come modello sottostante, i nostri risultati mostrano che il modello può ottenere un miglioramento medio di oltre 12 punti BLEU e 12 punti COMET rispetto alle sue prestazioni zero-shot su 10 direzioni di traduzione tratte dai dataset di test di WMT'21 (2 direzioni) e WMT'22 (8 direzioni). Le prestazioni sono significativamente migliori rispetto a tutti i lavori precedenti e persino superiori al modello NLLB-54B e a GPT-3.5-text-davinci-003, pur avendo solo 7B o 13B parametri. Questo metodo getta le basi per un nuovo paradigma di addestramento nella traduzione automatica.
Studiare come le persone interagiscono con i grandi modelli linguistici (LLM) in scenari reali è sempre più importante a causa del loro ampio utilizzo in varie applicazioni. In questo articolo, presentiamo LMSYS-Chat-1M, un dataset su larga scala contenente un milione di conversazioni reali con 25 LLM all'avanguardia. Questo dataset è stato raccolto da 210K indirizzi IP unici in contesti reali attraverso la nostra demo Vicuna e il sito web Chatbot Arena. Forniamo una panoramica del contenuto del dataset, includendo il processo di curatela, le statistiche di base e la distribuzione degli argomenti, evidenziandone la diversità, l'originalità e la scala. Dimostriamo la sua versatilità attraverso quattro casi d'uso: lo sviluppo di modelli di moderazione dei contenuti che performano in modo simile a GPT-4, la creazione di un benchmark per la sicurezza, l'addestramento di modelli che seguono le istruzioni in modo simile a Vicuna e la creazione di domande benchmark impegnative. Crediamo che questo dataset rappresenterà una risorsa preziosa per comprendere e migliorare le capacità degli LLM. Il dataset è disponibile pubblicamente all'indirizzo https://huggingface.co/datasets/lmsys/lmsys-chat-1m.
I grandi modelli linguistici (LLM) hanno spinto i limiti della comprensione del linguaggio naturale e hanno dimostrato un'eccellente capacità di risoluzione dei problemi. Nonostante il grande successo, la maggior parte degli LLM open-source esistenti (ad esempio, LLaMA-2) sono ancora lontani dall'essere soddisfacenti per risolvere problemi matematici a causa delle complesse procedure di ragionamento. Per colmare questa lacuna, proponiamo MetaMath, un modello linguistico fine-tuned specializzato nel ragionamento matematico. Nello specifico, iniziamo generando domande matematiche riscrivendo la domanda da molteplici prospettive senza conoscenze aggiuntive, ottenendo così un nuovo dataset chiamato {MetaMathQA}. Successivamente, eseguiamo il fine-tuning dei modelli LLaMA-2 su MetaMathQA. I risultati sperimentali su due benchmark popolari (ovvero, GSM8K e MATH) per il ragionamento matematico dimostrano che MetaMath supera significativamente una serie di LLM open-source. Il nostro modello MetaMath-7B raggiunge il 66,4% su GSM8K e il 19,4% su MATH, superando i modelli state-of-the-art della stessa dimensione rispettivamente dell'11,5% e dell'8,7%. In particolare, {MetaMath-70B} raggiunge un'accuratezza dell'82,3% su {GSM8K}, leggermente migliore rispetto a {GPT-3.5-Turbo}. Rilasciamo il dataset {MetaMathQA}, i modelli {MetaMath} con diverse dimensioni e il codice di training per uso pubblico.
Il grounding visivo 3D è un'abilità cruciale per i robot domestici, consentendo loro di navigare, manipolare oggetti e rispondere a domande basate sul loro ambiente. Mentre gli approcci esistenti spesso si affidano a dati etichettati estensivi o presentano limitazioni nella gestione di query linguistiche complesse, proponiamo LLM-Grounder, una nuova pipeline di grounding visivo 3D basata su Large Language Model (LLM) zero-shot e open-vocabulary. LLM-Grounder utilizza un LLM per scomporre query in linguaggio naturale complesse in costituenti semantici e impiega uno strumento di grounding visivo, come OpenScene o LERF, per identificare oggetti in una scena 3D. L'LLM valuta quindi le relazioni spaziali e di senso comune tra gli oggetti proposti per prendere una decisione finale di grounding. Il nostro metodo non richiede dati di training etichettati e può generalizzare a nuove scene 3D e query testuali arbitrarie. Valutiamo LLM-Grounder sul benchmark ScanRefer e dimostriamo un'accuratezza di grounding zero-shot all'avanguardia. I nostri risultati indicano che gli LLM migliorano significativamente la capacità di grounding, specialmente per query linguistiche complesse, rendendo LLM-Grounder un approccio efficace per i compiti di visione e linguaggio 3D nella robotica. Video e demo interattive sono disponibili sul sito del progetto https://chat-with-nerf.github.io/.
Presentiamo il modello linguistico Bittensor, denominato "BTLM-3B-8K", un nuovo modello linguistico open-source all'avanguardia da 3 miliardi di parametri. BTLM-3B-8K è stato addestrato su 627 miliardi di token provenienti dal dataset SlimPajama, utilizzando una combinazione di lunghezze contestuali di 2.048 e 8.192. BTLM-3B-8K supera tutti i modelli esistenti da 3B parametri con un margine del 2-5,5% in vari task downstream. Inoltre, BTLM-3B-8K è competitivo anche con alcuni modelli da 7B parametri. BTLM-3B-8K offre inoltre un'eccellente performance su contesti lunghi, superando MPT-7B-8K e XGen-7B-8K su task con lunghezze contestuali fino a 8.192. Abbiamo addestrato il modello su una versione pulita e deduplicata del dataset SlimPajama; ottimizzato in modo aggressivo gli iperparametri e la schedulazione di \textmu P; utilizzato gli embedding posizionali ALiBi; e adottato la non linearità SwiGLU. Su Hugging Face, i modelli più popolari hanno 7B parametri, indicando che gli utenti preferiscono il rapporto qualità-dimensione dei modelli da 7B. Compattare un modello da 7B parametri in uno da 3B parametri, con un impatto minimo sulle prestazioni, rappresenta una pietra miliare significativa. BTLM-3B-8K richiede solo 3GB di memoria con precisione a 4 bit e utilizza 2,5 volte meno risorse computazionali per l'inferenza rispetto ai modelli da 7B, contribuendo a rendere accessibile un potente modello linguistico su dispositivi mobili e edge. BTLM-3B-8K è disponibile con licenza Apache 2.0 su Hugging Face: https://huggingface.co/cerebras/btlm-3b-8k-base.
In questo lavoro presentiamo Boolformer, la prima architettura Transformer addestrata per eseguire regressione simbolica end-to-end di funzioni booleane. In primo luogo, dimostriamo che è in grado di prevedere formule compatte per funzioni complesse non viste durante l'addestramento, quando viene fornita una tavola di verità pulita. Successivamente, ne evidenziamo la capacità di trovare espressioni approssimate quando vengono fornite osservazioni incomplete e rumorose. Valutiamo Boolformer su un ampio set di dataset di classificazione binaria del mondo reale, dimostrandone il potenziale come alternativa interpretabile ai classici metodi di machine learning. Infine, lo applichiamo al diffuso compito di modellare le dinamiche delle reti di regolazione genica. Utilizzando un recente benchmark, mostriamo che Boolformer è competitivo con gli algoritmi genetici all'avanguardia, con un'accelerazione di diversi ordini di grandezza. Il nostro codice e i modelli sono disponibili pubblicamente.