Articoli di ricerca IA selezionati quotidianamente con traduzioni
Descriviamo lo sviluppo e le capacità di Meltemi 7B, il primo Large Language Model aperto per la lingua greca. Meltemi 7B possiede 7 miliardi di parametri ed è addestrato su un corpus greco di 40 miliardi di token. Per lo sviluppo di Meltemi 7B, abbiamo adattato Mistral attraverso un pretraining continuo sul corpus greco. Meltemi 7B include informazioni aggiornate fino a settembre 2023. Inoltre, abbiamo tradotto e curato un corpus di istruzioni in greco, utilizzato per l'instruction-tuning di un modello di chat denominato Meltemi 7B Instruct. È stata prestata particolare attenzione all'allineamento e alla rimozione di contenuti tossici per Meltemi 7B Instruct. I modelli sviluppati sono stati valutati su un ampio insieme di corpora di valutazione raccolti, e vengono presentati esempi di prompt e risposte. Sia Meltemi 7B che Meltemi 7B Instruct sono disponibili su https://huggingface.co/ilsp con licenza Apache 2.0.
I Large Language Models (LLM) hanno rivoluzionato il campo dell'elaborazione del linguaggio naturale, raggiungendo prestazioni senza precedenti in una varietà di applicazioni grazie all'aumento delle dimensioni dei modelli e delle lunghezze delle sequenze. Tuttavia, l'aumento associato dei costi computazionali e di memoria pone sfide significative, in particolare nella gestione di sequenze lunghe a causa della complessità quadratica del meccanismo di attenzione dei transformer. Questo articolo si concentra sullo scenario di contesto lungo, affrontando le inefficienze nel consumo di memoria della cache KV durante l'inferenza. A differenza degli approcci esistenti che ottimizzano la memoria in base alle lunghezze delle sequenze, scopriamo che la dimensione del canale della cache KV presenta una ridondanza significativa, caratterizzata da una distribuzione di magnitudine squilibrata e da una struttura a basso rango nei pesi di attenzione. Sulla base di queste osservazioni, proponiamo ThinK, un nuovo metodo di pruning della cache KV dipendente dalle query, progettato per minimizzare la perdita dei pesi di attenzione mentre selettivamente elimina i canali meno significativi. Il nostro approccio non solo mantiene o migliora l'accuratezza del modello, ma riduce anche i costi di memoria di oltre il 20% rispetto ai metodi tradizionali di evizione della cache KV. Valutazioni estensive sui modelli LLaMA3 e Mistral su vari dataset di sequenze lunghe confermano l'efficacia di ThinK, stabilendo un nuovo precedente per il dispiegamento efficiente di LLM senza compromettere le prestazioni. Delineiamo inoltre il potenziale di estendere il nostro metodo al pruning della cache dei valori, dimostrando la versatilità e l'ampia applicabilità di ThinK nella riduzione sia della memoria che dei sovraccarichi computazionali.
Le metodologie di pre-addestramento su larga scala per i modelli linguistici chimici rappresentano una svolta nel campo della chemioinformatica. Questi metodi eccellono in compiti come la previsione delle proprietà e la generazione di molecole, apprendendo rappresentazioni contestualizzate dei token di input attraverso l'apprendimento auto-supervisionato su grandi corpora non etichettati. Tipicamente, ciò comporta un pre-addestramento su dati non etichettati seguito da un fine-tuning su compiti specifici, riducendo la dipendenza da dataset annotati e ampliando la comprensione della rappresentazione del linguaggio chimico. Questo articolo introduce un grande modello chimico di tipo encoder-decoder pre-addestrato su un dataset curato di 91 milioni di campioni SMILES provenienti da PubChem, equivalente a 4 miliardi di token molecolari. Il modello di base proposto supporta diversi compiti complessi, inclusa la previsione di proprietà quantistiche, e offre flessibilità con due varianti principali (289M e 8×289M). I nostri esperimenti su più dataset di benchmark convalidano la capacità del modello proposto di fornire risultati all'avanguardia per diversi compiti. Forniamo inoltre una valutazione preliminare della composizionalità dello spazio di embedding come prerequisito per i compiti di ragionamento. Dimostriamo che lo spazio latente prodotto è separabile rispetto allo stato dell'arte, con capacità di apprendimento few-shot.
Man mano che i modelli linguistici di grandi dimensioni (LLM) vengono sempre più integrati nei flussi di lavoro operativi (LLM-Ops), sorge l'esigenza urgente di implementare meccanismi di controllo efficaci per garantire interazioni sicure e allineate, inclusa la capacità di rilevare contenuti potenzialmente non sicuri o inappropriati in diverse lingue. Tuttavia, i classificatori esistenti per contenuti sicuri per il lavoro si concentrano principalmente su testi in inglese. Per colmare questa lacuna per la lingua malese, presentiamo un innovativo classificatore di testi sicuri per il lavoro specificamente progettato per contenuti in lingua malese. Curando e annotando un dataset senza precedenti di testi malesi che coprono molteplici categorie di contenuti, abbiamo addestrato un modello di classificazione in grado di identificare materiale potenzialmente non sicuro utilizzando tecniche all'avanguardia di elaborazione del linguaggio naturale. Questo lavoro rappresenta un passo importante verso l'abilitazione di interazioni più sicure e il filtraggio dei contenuti per mitigare potenziali rischi e garantire un impiego responsabile degli LLM. Per massimizzare l'accessibilità e promuovere ulteriori ricerche volte a migliorare l'allineamento negli LLM-Ops nel contesto malese, il modello è stato reso pubblico all'indirizzo https://huggingface.co/malaysia-ai/malaysian-sfw-classifier.
Questo articolo introduce un approccio innovativo per il matting di immagini che ridefinisce il tradizionale compito basato sulla regressione come una sfida di modellazione generativa. Il nostro metodo sfrutta le capacità dei modelli di diffusione latente, arricchiti da una vasta conoscenza pre-addestrata, per regolarizzare il processo di matting. Presentiamo innovazioni architetturali che consentono al nostro modello di produrre matte con una risoluzione e un dettaglio superiori. Il metodo proposto è versatile e può eseguire il matting di immagini sia senza guida che con guida, adattandosi a una varietà di indizi aggiuntivi. La nostra valutazione completa su tre dataset di riferimento dimostra la performance superiore del nostro approccio, sia quantitativamente che qualitativamente. I risultati non solo riflettono l'efficacia robusta del nostro metodo, ma evidenziano anche la sua capacità di generare matte visivamente accattivanti che si avvicinano alla qualità fotorealistica. La pagina del progetto per questo articolo è disponibile all'indirizzo https://lightchaserx.github.io/matting-by-generation/
Introduciamo Diffusion Augmented Agents (DAAG), un nuovo framework che sfrutta modelli linguistici di grandi dimensioni, modelli visione-linguaggio e modelli di diffusione per migliorare l'efficienza campionaria e il trasferimento di apprendimento nel reinforcement learning per agenti incarnati. DAAG rilabelizza retrospettivamente l'esperienza passata dell'agente utilizzando modelli di diffusione per trasformare i video in modo temporalmente e geometricamente coerente, allineandoli alle istruzioni target con una tecnica che chiamiamo Hindsight Experience Augmentation. Un modello linguistico di grandi dimensioni orchestra questo processo autonomo senza richiedere supervisione umana, rendendolo adatto a scenari di apprendimento continuo. Il framework riduce la quantità di dati etichettati con ricompensa necessari per 1) affinare un modello visione-linguaggio che funge da rilevatore di ricompensa, e 2) addestrare agenti RL su nuovi compiti. Dimostriamo i guadagni in efficienza campionaria di DAAG in ambienti robotici simulati che coinvolgono manipolazione e navigazione. I nostri risultati mostrano che DAAG migliora l'apprendimento dei rilevatori di ricompensa, il trasferimento dell'esperienza passata e l'acquisizione di nuovi compiti - abilità chiave per sviluppare agenti di apprendimento continuo efficienti. Materiale supplementare e visualizzazioni sono disponibili sul nostro sito web https://sites.google.com/view/diffusion-augmented-agents/.
Presentiamo Knesset-DictaBERT, un modello linguistico di grandi dimensioni per l'ebraico, ottimizzato sul Knesset Corpus, che comprende i procedimenti parlamentari israeliani. Il modello si basa sull'architettura DictaBERT e dimostra miglioramenti significativi nella comprensione del linguaggio parlamentare secondo il compito di MLM (Masked Language Modeling). Forniamo una valutazione dettagliata delle prestazioni del modello, mostrando miglioramenti nella perplessità e nell'accuratezza rispetto al modello DictaBERT di base.
I metodi esistenti per la descrizione musicale sono limitati alla generazione di descrizioni globali concise di brevi clip musicali, che non riescono a catturare le caratteristiche musicali dettagliate e i cambiamenti musicali nel tempo. Per affrontare queste limitazioni, proponiamo FUTGA, un modello dotato di capacità di comprensione musicale fine attraverso l'apprendimento da un'augmentazione generativa con composizioni temporali. Utilizziamo i dataset esistenti di descrizioni musicali e i modelli linguistici di grandi dimensioni (LLM) per sintetizzare descrizioni musicali dettagliate con descrizioni strutturali e limiti temporali per canzoni complete. Aumentato dal dataset sintetico proposto, FUTGA è in grado di identificare i cambiamenti temporali della musica nei punti di transizione chiave e le loro funzioni musicali, nonché di generare descrizioni dettagliate per ogni segmento musicale. Introduciamo inoltre un dataset di descrizioni musicali complete generato da FUTGA, come ampliamento dei dataset MusicCaps e Song Describer. Valutiamo le descrizioni generate automaticamente su diverse attività downstream, tra cui la generazione e il recupero musicale. Gli esperimenti dimostrano la qualità delle descrizioni generate e le migliori prestazioni in varie attività downstream ottenute con l'approccio proposto per la descrizione musicale. Il nostro codice e i dataset sono disponibili su https://huggingface.co/JoshuaW1997/FUTGA{blue{https://huggingface.co/JoshuaW1997/FUTGA}}.
Il Neural Information Retrieval ha fatto rapidi progressi nelle lingue ad alto livello di risorse, ma l'avanzamento in quelle a risorse più limitate, come il giapponese, è stato ostacolato dalla scarsità di dati, tra altre sfide. Di conseguenza, i modelli multilingue hanno dominato il retrieval in giapponese, nonostante le loro inefficienze computazionali e l'incapacità di catturare le sfumature linguistiche. Sebbene recenti modelli monolingue a vettori multipli come JaColBERT abbiano ridotto questo divario, continuano a rimanere indietro rispetto ai metodi multilingue nelle valutazioni su larga scala. Questo lavoro affronta i metodi di addestramento subottimali dei retriever a vettori multipli in contesti a risorse limitate, con un focus sul giapponese. Valutiamo e miglioriamo sistematicamente aspetti chiave delle impostazioni di inferenza e addestramento di JaColBERT e, più in generale, dei modelli a vettori multipli. Miglioriamo ulteriormente le prestazioni attraverso un nuovo passaggio di fusione dei checkpoint, dimostrando che si tratta di un modo efficace per combinare i vantaggi del fine-tuning con le capacità di generalizzazione del checkpoint originale. Basandoci sulla nostra analisi, introduciamo una nuova ricetta di addestramento, che porta al modello JaColBERTv2.5. JaColBERTv2.5, con soli 110 milioni di parametri e addestrato in meno di 15 ore su 4 GPU A100, supera significativamente tutti i metodi esistenti in tutti i benchmark comuni, raggiungendo un punteggio medio di 0,754, significativamente superiore al precedente miglior risultato di 0,720. Per supportare la ricerca futura, rendiamo pubblicamente disponibili i nostri modelli finali, i checkpoint intermedi e tutti i dati utilizzati.
HAL (Hyper Articles en Ligne) è il repository nazionale francese per le pubblicazioni, utilizzato dalla maggior parte delle organizzazioni di istruzione superiore e ricerca per la loro politica di scienza aperta. Come biblioteca digitale, rappresenta un ricco archivio di documenti accademici, ma il suo potenziale per la ricerca avanzata è stato sottoutilizzato. Presentiamo HALvest, un dataset unico che colma il divario tra le reti di citazioni e il testo completo degli articoli pubblicati su HAL. Costruiamo il nostro dataset filtrando HAL per le pubblicazioni accademiche, ottenendo circa 700.000 documenti, che coprono 34 lingue in 13 domini identificati, adatti per l'addestramento di modelli linguistici e che producono approssimativamente 16,5 miliardi di token (di cui 8 miliardi in francese e 7 miliardi in inglese, le lingue più rappresentate). Trasformiamo i metadati di ciascun articolo in una rete di citazioni, producendo un grafo eterogeneo diretto. Questo grafo include autori identificati in modo univoco su HAL, tutti gli articoli pubblicati in accesso aperto e le loro citazioni. Forniamo una baseline per l'attribuzione della paternità utilizzando il dataset, implementiamo una gamma di modelli all'avanguardia nell'apprendimento di rappresentazioni grafiche per la previsione di collegamenti e discutiamo l'utilità della struttura del grafo della conoscenza da noi generata.