Articoli di ricerca IA selezionati quotidianamente con traduzioni
I documenti aziendali come moduli, fatture, ricevute, report, contratti e altri record simili spesso contengono una semantica ricca all'intersezione tra modalità testuali e spaziali. Gli indizi visivi offerti dai loro layout complessi svolgono un ruolo cruciale nella comprensione efficace di questi documenti. In questo articolo, presentiamo DocLLM, un'estensione leggera dei tradizionali modelli linguistici di grandi dimensioni (LLM) per il ragionamento su documenti visivi, tenendo conto sia della semantica testuale che del layout spaziale. Il nostro modello si differenzia dagli LLM multimodali esistenti evitando costosi encoder di immagini e concentrandosi esclusivamente sulle informazioni delle bounding box per incorporare la struttura del layout spaziale. Nello specifico, l'allineamento incrociato tra testo e modalità spaziali viene catturato scomponendo il meccanismo di attenzione nei trasformatori classici in un insieme di matrici disaccoppiate. Inoltre, abbiamo ideato un obiettivo di pre-addestramento che impara a riempire segmenti di testo. Questo approccio ci consente di affrontare layout irregolari e contenuti eterogenei frequentemente riscontrati nei documenti visivi. Il modello pre-addestrato viene perfezionato utilizzando un ampio dataset di istruzioni, che copre quattro compiti principali di intelligenza documentale. Dimostriamo che la nostra soluzione supera gli LLM all'avanguardia su 14 dei 16 dataset in tutti i compiti e generalizza bene su 4 dei 5 dataset precedentemente non visti.
In questo articolo, presentiamo un metodo nuovo e semplice per ottenere embedding di testo di alta qualità utilizzando solo dati sintetici e meno di 1.000 passi di addestramento. A differenza dei metodi esistenti, che spesso dipendono da una pre-addestramento intermedio multi-stadio con miliardi di coppie di testo debolmente supervisionate, seguito da un fine-tuning con pochi dataset etichettati, il nostro metodo non richiede la costruzione di pipeline di addestramento complesse né il ricorso a dataset raccolti manualmente, che sono spesso limitati nella diversità dei task e nella copertura linguistica. Sfruttiamo modelli linguistici proprietari (LLM) per generare dati sintetici diversificati per centinaia di migliaia di task di embedding di testo in quasi 100 lingue. Successivamente, eseguiamo il fine-tuning di LLM open-source di tipo decoder-only sui dati sintetici utilizzando una funzione di perdita contrastiva standard. Gli esperimenti dimostrano che il nostro metodo raggiunge prestazioni solide su benchmark di embedding di testo altamente competitivi senza utilizzare alcun dato etichettato. Inoltre, quando sottoposto a fine-tuning con una miscela di dati sintetici ed etichettati, il nostro modello stabilisce nuovi risultati state-of-the-art sui benchmark BEIR e MTEB.
Sfruttare il potere dei dati annotati dall'uomo attraverso il Fine-Tuning Supervisionato (SFT) è fondamentale per far progredire i Modelli Linguistici di Grande Scala (LLM). In questo articolo, esploriamo la possibilità di far crescere un LLM robusto a partire da uno debole senza la necessità di acquisire ulteriori dati annotati dall'uomo. Proponiamo un nuovo metodo di fine-tuning chiamato Self-Play fIne-tuNing (SPIN), che parte da un modello sottoposto a fine-tuning supervisionato. Al centro di SPIN si trova un meccanismo di self-play, in cui l'LLM affina le sue capacità confrontandosi con istanze di se stesso. Più specificamente, l'LLM genera i propri dati di training dalle sue iterazioni precedenti, perfezionando la sua politica distinguendo queste risposte auto-generate da quelle ottenute dai dati annotati dall'uomo. Il nostro metodo eleva progressivamente l'LLM da un modello nascente a uno formidabile, sbloccando il pieno potenziale dei dati dimostrativi annotati dall'uomo per il SFT. Teoricamente, dimostriamo che l'ottimo globale della funzione obiettivo del nostro metodo viene raggiunto solo quando la politica dell'LLM si allinea con la distribuzione dei dati target. Empiricamente, valutiamo il nostro metodo su diversi dataset di riferimento, tra cui la HuggingFace Open LLM Leaderboard, MT-Bench e i dataset di Big-Bench. I nostri risultati mostrano che SPIN può migliorare significativamente le prestazioni dell'LLM su una varietà di benchmark e persino superare i modelli addestrati attraverso l'ottimizzazione diretta delle preferenze (DPO) integrata con dati aggiuntivi di preferenza GPT-4. Ciò evidenzia la promessa del self-play, consentendo il raggiungimento di prestazioni di livello umano negli LLM senza la necessità di avversari esperti.
Negli ultimi tempi, sono stati compiuti progressi significativi nei grandi modelli linguistici (LLM), come dimostrato da ChatGPT, che mostra una notevole competenza in una vasta gamma di compiti complessi. Tuttavia, molti LLM mainstream (ad esempio LLaMA) sono pre-addestrati su corpora prevalentemente in inglese, il che limita le loro prestazioni in altre lingue non inglesi. In questo articolo, ci concentriamo su come trasferire efficacemente le capacità di generazione del linguaggio e di esecuzione di istruzioni a una lingua non inglese. Per rispondere a questa domanda, conduciamo un'ampia indagine empirica basata su LLaMA, accumulando oltre 1440 ore di GPU. Analizziamo l'impatto di fattori chiave come l'estensione del vocabolario, l'ulteriore pre-addestramento e la regolazione delle istruzioni sul trasferimento. Per valutare accuratamente il livello di conoscenza del modello, utilizziamo quattro benchmark di test standardizzati ampiamente utilizzati: C-Eval, MMLU, AGI-Eval e GAOKAO-Bench. Inoltre, viene condotta una valutazione completa della qualità delle risposte del modello, considerando aspetti come accuratezza, fluidità, informatività, coerenza logica e innocuità, basandosi su LLM-Eval, un benchmark composto da compiti di istruzione di 17 categorie diverse. I nostri risultati di valutazione dimostrano che è possibile ottenere prestazioni comparabili ai modelli di trasferimento all'avanguardia con meno dell'1% dei dati di pre-addestramento, sia in termini di allineamento della conoscenza che di qualità delle risposte. Inoltre, i risultati sperimentali nelle tredici lingue a bassa risorsa mostrano tendenze simili. Anticipiamo che le conclusioni rivelate dagli esperimenti aiuteranno la comunità nello sviluppo di LLM non inglesi.
Le leggi di scala dei modelli linguistici di grandi dimensioni (LLM) sono formule empiriche che stimano le variazioni nella qualità del modello in funzione dell'aumento del numero di parametri e dei dati di addestramento. Tuttavia, queste formule, comprese le popolari leggi di scala DeepMind Chinchilla, non tengono conto del costo dell'inferenza. Modifichiamo le leggi di scala Chinchilla per calcolare il numero ottimale di parametri di un LLM e la dimensione dei dati di pre-addestramento necessari per addestrare e distribuire un modello di una determinata qualità e con una specifica richiesta di inferenza. Condurremo la nostra analisi sia in termini di budget computazionale che di costi reali, e scopriremo che i ricercatori di LLM che si aspettano una richiesta di inferenza ragionevolmente ampia (~1 miliardo di richieste) dovrebbero addestrare modelli più piccoli e per un periodo più lungo rispetto a quanto suggerito dall'ottimizzazione Chinchilla.
Questo lavoro evidenzia la capacità intrinseca dei Large Language Models (LLM) di gestire contesti lunghi senza necessità di fine-tuning. La lunghezza limitata della sequenza di addestramento durante il training può ridurre l'applicabilità dei LLM su sequenze di input lunghe durante l'inferenza. In questo lavoro, sosteniamo che i LLM esistenti possiedono già capacità intrinseche per gestire contesti lunghi. Sulla base di questa argomentazione, suggeriamo di estendere autonomamente la finestra contestuale dei LLM per sfruttare appieno questa capacità intrinseca. Proponiamo Self-Extend per stimolare il potenziale dei LLM nella gestione di contesti lunghi. L'idea di base è costruire un'attenzione a due livelli: a livello di gruppo e a livello di vicinato. I due livelli sono calcolati tramite il meccanismo di self-attention originale del modello, il che significa che il metodo proposto non richiede alcun addestramento aggiuntivo. Con solo quattro righe di codice modificate, il metodo proposto può estendere senza sforzo la finestra contestuale dei LLM esistenti senza alcun fine-tuning. Abbiamo condotto esperimenti completi e i risultati dimostrano che il metodo proposto può estendere efficacemente la lunghezza della finestra contestuale dei LLM esistenti.
L'elevato costo del fine-tuning completo dei parametri (FFT) per i Large Language Models (LLM) ha portato allo sviluppo di una serie di metodi di fine-tuning efficiente in termini di parametri (PEFT). Tuttavia, non è ancora chiaro quali metodi offrano il miglior compromesso tra costo e prestazioni a diverse scale di modelli. Introduciamo Astraios, una suite di 28 modelli OctoCoder ottimizzati per istruzioni, utilizzando 7 metodi di tuning e 4 dimensioni di modello fino a 16 miliardi di parametri. Attraverso indagini su 5 task e 8 diversi dataset che comprendono sia compiti di comprensione che di generazione del codice, scopriamo che il FFT generalmente porta alle migliori prestazioni downstream su tutte le scale, e che i metodi PEFT differiscono significativamente nella loro efficacia in base alla scala del modello. LoRA di solito offre il compromesso più favorevole tra costo e prestazioni. Un'ulteriore indagine sugli effetti di questi metodi sia sulla robustezza del modello che sulla sicurezza del codice rivela che i modelli più grandi tendono a dimostrare una ridotta robustezza e meno sicurezza. Infine, esploriamo le relazioni tra i parametri aggiornati, la perdita di entropia incrociata e le prestazioni del task. Scopriamo che l'efficacia del tuning osservata nei modelli piccoli si generalizza bene ai modelli più grandi, e che la perdita di validazione nel tuning per istruzioni può essere un indicatore affidabile delle prestazioni complessive downstream.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità straordinarie nel comprendere e generare testi che rispecchiano da vicino la comunicazione umana. Tuttavia, una limitazione principale risiede nelle significative richieste computazionali durante l'addestramento, derivanti dalla loro estesa parametrizzazione. Questa sfida è ulteriormente intensificata dalla natura dinamica del mondo, che richiede aggiornamenti frequenti degli LLM per correggere informazioni obsolete o integrare nuove conoscenze, garantendo così la loro continua rilevanza. Si noti che molte applicazioni richiedono continui aggiustamenti del modello post-addestramento per affrontare carenze o comportamenti indesiderati. C'è un interesse crescente verso metodi efficienti e leggeri per modificare i modelli in tempo reale. A tal fine, negli ultimi anni si è assistito a una proliferazione di tecniche di modifica della conoscenza per gli LLM, che mirano a modificare in modo efficiente i comportamenti degli LLM in domini specifici preservando le prestazioni complessive su vari input. In questo articolo, definiamo innanzitutto il problema della modifica della conoscenza e forniamo una revisione completa degli approcci all'avanguardia. Traendo ispirazione dalle teorie della ricerca educativa e cognitiva, proponiamo un criterio di categorizzazione unificato che classifica i metodi di modifica della conoscenza in tre gruppi: ricorso a conoscenze esterne, integrazione della conoscenza nel modello e modifica della conoscenza intrinseca. Inoltre, introduciamo un nuovo benchmark, KnowEdit, per una valutazione empirica completa degli approcci rappresentativi di modifica della conoscenza. Forniamo inoltre un'analisi approfondita della localizzazione della conoscenza, che può offrire una comprensione più profonda delle strutture di conoscenza intrinseche negli LLM. Infine, discutiamo diverse potenziali applicazioni della modifica della conoscenza, delineandone le ampie e significative implicazioni.
Le recenti innovazioni e scoperte nei modelli di diffusione hanno significativamente ampliato le possibilità di generare video di alta qualità a partire da prompt specifici. La maggior parte dei lavori esistenti affronta lo scenario a singola scena, in cui si verifica un solo evento video in un unico sfondo. Estendere la generazione a video multi-scena non è tuttavia banale e richiede di gestire in modo appropriato la logica tra le scene, preservando al contempo l'aspetto visivo coerente dei contenuti chiave attraverso le diverse scene. In questo articolo, proponiamo un nuovo framework, denominato VideoDrafter, per la generazione di video multi-scena con coerenza di contenuto. Tecnicamente, VideoDrafter sfrutta i Large Language Models (LLM) per convertire il prompt di input in uno script multi-scena completo, che beneficia della conoscenza logica appresa dai LLM. Lo script per ogni scena include un prompt che descrive l'evento, le entità in primo piano/sfondo, nonché il movimento della telecamera. VideoDrafter identifica le entità comuni nell'intero script e richiede al LLM di dettagliare ciascuna entità. La descrizione risultante dell'entità viene quindi inserita in un modello text-to-image per generare un'immagine di riferimento per ciascuna entità. Infine, VideoDrafter produce un video multi-scena generando ogni scena video attraverso un processo di diffusione che tiene conto delle immagini di riferimento, del prompt descrittivo dell'evento e del movimento della telecamera. Il modello di diffusione incorpora le immagini di riferimento come condizione e allineamento per rafforzare la coerenza di contenuto dei video multi-scena. Esperimenti estensivi dimostrano che VideoDrafter supera i modelli SOTA di generazione video in termini di qualità visiva, coerenza di contenuto e preferenza degli utenti.
Nell'evoluzione del pre-addestramento visione-linguaggio, il passaggio dalla comprensione di testi brevi all'inclusione di contesti testuali estesi è fondamentale. Recenti modelli visione-linguaggio autoregressivi come Flamingo e PALME, sfruttando la capacità di gestire contesti lunghi dei Large Language Models, hanno eccelso in compiti di generazione di testo few-shot ma incontrano difficoltà nei compiti di allineamento. Per colmare questa lacuna, introduciamo la funzione di perdita contrastiva nei modelli di generazione di testo, presentando il framework COntrastive-Streamlined MultimOdal (\ModelName), che suddivide strategicamente il modello linguistico in componenti dedicate all'elaborazione unimodale del testo e alla gestione multimodale dei dati. \ModelName, il nostro framework unificato, combina elementi unimodali e multimodali, migliorando le prestazioni del modello per compiti che coinvolgono dati testuali e visivi e riducendo significativamente i parametri apprendibili. Tuttavia, questi modelli richiedono ampi dataset di testi lunghi, ma la disponibilità di dataset video-testo di alta qualità rimane limitata. Per colmare questa lacuna, questo lavoro introduce \VideoDatasetName, un dataset video-testo intervallato con didascalie complete, rappresentando un significativo passo avanti. Dimostrandone l'impatto, illustriamo come \ModelName migliori le prestazioni del modello nei compiti immagine-testo. Con il 34% dei parametri apprendibili e utilizzando il 72% dei dati disponibili, il nostro modello dimostra una superiorità significativa rispetto a OpenFlamingo. Ad esempio, nel compito di didascalia few-shot su Flickr, le prestazioni migliorano notevolmente dal 57,2% al 65%. I contributi di \ModelName e \VideoDatasetName sono evidenziati da significativi guadagni di prestazioni su 14 diversi dataset downstream che comprendono sia compiti immagine-testo che video-testo.
All'interno degli approcci recenti alla generazione testo-video (T2V), ottenere controllabilità nel video sintetizzato rappresenta spesso una sfida. Tipicamente, questo problema viene affrontato fornendo una guida a basso livello per fotogramma sotto forma di mappe dei bordi, mappe di profondità o un video esistente da modificare. Tuttavia, il processo per ottenere tale guida può essere laborioso. Questo articolo si concentra sul miglioramento della controllabilità nella sintesi video utilizzando semplici bounding box per guidare il soggetto in vari modi, tutto senza la necessità di addestramento di reti neurali, fine-tuning, ottimizzazione al momento dell'inferenza o l'uso di video preesistenti. Il nostro algoritmo, TrailBlazer, è costruito su un modello T2V pre-addestrato ed è facile da implementare. Il soggetto viene diretto da una bounding box attraverso la modifica proposta delle mappe di attenzione spaziale e temporale. Inoltre, introduciamo il concetto di keyframing, che consente di guidare la traiettoria del soggetto e l'aspetto complessivo sia attraverso una bounding box in movimento che tramite prompt corrispondenti, senza la necessità di fornire una maschera dettagliata. Il metodo è efficiente, con un calcolo aggiuntivo trascurabile rispetto al modello pre-addestrato sottostante. Nonostante la semplicità della guida tramite bounding box, il movimento risultante è sorprendentemente naturale, con effetti emergenti che includono la prospettiva e il movimento verso la telecamera virtuale man mano che le dimensioni della box aumentano.
I modelli linguistici di grandi dimensioni (LLM) hanno compiuto progressi significativi nell'elaborazione del linguaggio naturale e stanno estendendo contemporaneamente le capacità linguistiche ad altre modalità, come il parlato e la visione. Tuttavia, la maggior parte del lavoro precedente si è concentrata sull'utilizzo di prompt per dotare gli LLM di abilità percettive come la comprensione uditiva, mentre l'approccio efficace per potenziare gli LLM con capacità di sintesi vocale rimane ambiguo. In questo articolo, conduciamo un'esplorazione empirica completa per potenziare gli LLM con la capacità di generare parlato, combinando il modello LLM pre-addestrato LLaMA/OPT e il modello di sintesi vocale VALL-E. Confrontiamo tre metodi di integrazione tra LLM e modelli di sintesi vocale, tra cui LLM direttamente fine-tunati, strati sovrapposti di LLM e VALL-E, e LLM accoppiati a VALL-E utilizzando gli LLM come potenti encoder di testo. I risultati sperimentali mostrano che l'uso del metodo LoRA per il fine-tuning diretto degli LLM al fine di potenziare la capacità di sintesi vocale non funziona bene, mentre LLM e VALL-E sovrapposti possono migliorare la qualità del parlato generato sia in termini di somiglianza del parlante che di tasso di errore sulle parole (WER). Tra questi tre metodi, i metodi accoppiati che sfruttano gli LLM come encoder di testo possono ottenere le migliori prestazioni, superando i modelli di sintesi vocale originali con una somiglianza del parlante costantemente migliore e una riduzione significativa (10,9%) del WER.
L'addestramento di modelli linguistici su larga scala sta diventando sempre più cruciale in vari ambiti, ma è ostacolato da frequenti guasti, che comportano costi significativi in termini di tempo e risorse economiche. Gli attuali metodi di ripristino in caso di guasto in ambienti basati su cloud non affrontano adeguatamente gli scenari complessi e diversificati che si presentano, concentrandosi in modo limitato sull'eliminazione dei tempi di inattività per singoli compiti senza considerare l'impatto complessivo sui costi di un cluster. Introduciamo Unicron, un gestore di carichi di lavoro progettato per un'autoguarigione efficiente nell'addestramento di modelli linguistici su larga scala. Unicron ottimizza il processo di addestramento minimizzando i costi legati ai guasti su più compiti concorrenti all'interno di un cluster. Le sue caratteristiche principali includono il rilevamento degli errori in-band per l'identificazione in tempo reale senza sovraccarichi aggiuntivi, un meccanismo dinamico di generazione di piani basato sui costi per una riconfigurazione ottimale e una strategia di transizione efficiente per ridurre i tempi di inattività durante i cambiamenti di stato. Implementato su un cluster distribuito con 128 GPU, Unicron dimostra un miglioramento fino a 1,9x nell'efficienza di addestramento rispetto ai metodi più avanzati, riducendo significativamente i costi di ripristino dei guasti e migliorando l'affidabilità dell'addestramento di modelli linguistici su larga scala.
I modelli linguistici di grandi dimensioni (LLM) hanno ottenuto un enorme successo grazie alla loro conoscenza generale e alla capacità di risolvere un ampio spettro di compiti nel campo dell'elaborazione del linguaggio naturale (NLP). Grazie alle loro impressionanti capacità, gli LLM hanno gettato luce su potenziali applicazioni interdisciplinari per favorire scoperte scientifiche in un dominio specifico attraverso l'uso dell'intelligenza artificiale (AI per la scienza, AI4S). Nel frattempo, l'utilizzo delle tecniche NLP nella ricerca e nella pratica delle geoscienze è ampio e complesso, contribuendo dall'estrazione di conoscenze e dalla classificazione di documenti al question answering e alla scoperta di conoscenze. In questo lavoro, compiamo il primo passo per sfruttare un LLM per la scienza, attraverso un approccio piuttosto diretto. Cerchiamo di specializzare un LLM nelle geoscienze, effettuando un ulteriore pre-addestramento del modello con una vasta quantità di testi di geoscienze, oltre a un fine-tuning supervisionato (SFT) del modello risultante con il nostro dataset personalizzato di istruzioni. Questi sforzi hanno portato alla creazione di un modello, GeoGalactica, composto da 30 miliardi di parametri. Per quanto ne sappiamo, si tratta del più grande modello linguistico per il dominio delle geoscienze. Più specificamente, GeoGalactica deriva da un ulteriore pre-addestramento di Galactica. Addestriamo GeoGalactica su un corpus di testi relativi alle geoscienze contenente 65 miliardi di token, curato da fonti di dati estensive del progetto di big science Deep-time Digital Earth (DDE), che rappresenta il più grande corpus di testi specifico per le geoscienze. Successivamente, effettuiamo il fine-tuning del modello con 1 milione di coppie di dati di istruzioni, composte da domande che richiedono conoscenze professionali di geoscienze per essere risolte. In questo rapporto tecnico, illustreremo in dettaglio tutti gli aspetti di GeoGalactica, inclusi la raccolta dei dati, la pulizia dei dati, la selezione del modello di base, il pre-addestramento, l'SFT e la valutazione. Rendiamo open-source i nostri strumenti di curatela dei dati e i checkpoint di GeoGalactica durante i primi 3/4 del pre-addestramento.
Con la rapida evoluzione dei modelli Text-to-Image (T2I) negli ultimi anni, i loro risultati di generazione insoddisfacenti sono diventati una sfida. Tuttavia, il perfezionamento uniforme delle immagini generate dall'IA (AIGI) di qualità diversa non solo ha limitato le capacità di ottimizzazione per le AIGI di bassa qualità, ma ha anche portato a un'ottimizzazione negativa per le AIGI di alta qualità. Per affrontare questo problema, è stato proposto un perfezionatore basato sulla qualità chiamato Q-Refine. Basandosi sulle preferenze del Sistema Visivo Umano (HVS), Q-Refine utilizza per la prima volta la metrica di Valutazione della Qualità dell'Immagine (IQA) per guidare il processo di perfezionamento e modificare le immagini di qualità diversa attraverso tre pipeline adattive. Gli esperimenti dimostrano che, per i principali modelli T2I, Q-Refine può eseguire un'ottimizzazione efficace delle AIGI di qualità diversa. Può fungere da perfezionatore generale per ottimizzare le AIGI sia a livello di fedeltà che di qualità estetica, ampliando così l'applicazione dei modelli di generazione T2I.
La distillazione del punteggio è emersa come uno degli approcci più diffusi per la sintesi di asset 3D da testo. In sostanza, la distillazione del punteggio aggiorna i parametri 3D sollevando e retro-propagando punteggi medi su diverse viste. In questo articolo, riveliamo che la stima del gradiente nella distillazione del punteggio è intrinsecamente soggetta ad alta varianza. Attraverso la lente della riduzione della varianza, l'efficacia di SDS e VSD può essere interpretata come l'applicazione di vari variabili di controllo all'estimatore Monte Carlo del punteggio distillato. Motivati da questa rilettura e basandoci sull'identità di Stein, proponiamo una soluzione più generale per ridurre la varianza nella distillazione del punteggio, denominata Stein Score Distillation (SSD). SSD incorpora variabili di controllo costruite tramite l'identità di Stein, consentendo l'uso di funzioni di base arbitrarie. Ciò ci permette di includere prior di guida flessibili e architetture di rete per ottimizzare esplicitamente la riduzione della varianza. Nei nostri esperimenti, l'intera pipeline, soprannominata SteinDreamer, è implementata istanziando la variabile di controllo con un estimatore di profondità monoculare. I risultati suggeriscono che SSD può ridurre efficacemente la varianza della distillazione e migliorare costantemente la qualità visiva sia per la generazione a livello di oggetto che di scena. Inoltre, dimostriamo che SteinDreamer raggiunge una convergenza più rapida rispetto ai metodi esistenti grazie a aggiornamenti del gradiente più stabili.