Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo FinTral, una suite di modelli linguistici multimodali (LLM) all'avanguardia basati sul modello Mistral-7b e progettati specificamente per l'analisi finanziaria. FinTral integra dati testuali, numerici, tabellari e visivi. Abbiamo potenziato FinTral con pre-addestramento specifico per il dominio, fine-tuning su istruzioni e addestramento RLAIF, sfruttando una vasta raccolta di dataset testuali e visivi che abbiamo curato per questo lavoro. Introduciamo inoltre un benchmark esteso che comprende nove task e 25 dataset per la valutazione, inclusi fenomeni di allucinazione nel dominio finanziario. Il nostro modello FinTral addestrato con ottimizzazione diretta delle preferenze utilizzando strumenti avanzati e metodi di recupero, denominato FinTral-DPO-T&R, dimostra prestazioni eccezionali in modalità zero-shot. Supera ChatGPT-3.5 in tutti i task e supera GPT-4 in cinque su nove task, segnando un progresso significativo nella tecnologia finanziaria basata sull'intelligenza artificiale. Dimostriamo inoltre che FinTral ha il potenziale per eccellere nell'analisi in tempo reale e nel processo decisionale in diversi contesti finanziari.
La natura è intrinsecamente priva di limiti di risoluzione. In questo contesto, i modelli di diffusione esistenti, come i Diffusion Transformers, spesso incontrano difficoltà nel processare risoluzioni di immagini al di fuori del loro dominio di addestramento. Per superare questa limitazione, presentiamo il Flexible Vision Transformer (FiT), un'architettura transformer progettata specificamente per generare immagini con risoluzioni e rapporti d'aspetto illimitati. A differenza dei metodi tradizionali che percepiscono le immagini come griglie a risoluzione statica, FiT concettualizza le immagini come sequenze di token di dimensioni dinamiche. Questa prospettiva consente una strategia di addestramento flessibile che si adatta senza sforzo a diversi rapporti d'aspetto sia durante la fase di addestramento che di inferenza, promuovendo così la generalizzazione della risoluzione ed eliminando i bias indotti dal ritaglio delle immagini. Potenziato da una struttura di rete meticolosamente regolata e dall'integrazione di tecniche di estrapolazione senza addestramento, FiT dimostra una notevole flessibilità nella generazione di estrapolazioni di risoluzione. Esperimenti completi dimostrano le prestazioni eccezionali di FiT su un'ampia gamma di risoluzioni, evidenziandone l'efficacia sia all'interno che al di fuori della distribuzione di risoluzione di addestramento. Repository disponibile all'indirizzo https://github.com/whlzy/FiT.
Presentiamo AnyGPT, un modello linguistico multimodale any-to-any che utilizza rappresentazioni discrete per l'elaborazione unificata di varie modalità, tra cui voce, testo, immagini e musica. AnyGPT può essere addestrato in modo stabile senza alcuna modifica all'architettura attuale dei grandi modelli linguistici (LLM) o ai paradigmi di addestramento. Invece, si affida esclusivamente alla pre-elaborazione a livello di dati, facilitando l'integrazione senza soluzione di continuità di nuove modalità negli LLM, simile all'incorporazione di nuove lingue. Costruiamo un dataset multimodale incentrato sul testo per il pre-addestramento dell'allineamento multimodale. Utilizzando modelli generativi, sintetizziamo il primo dataset di istruzioni multimodali any-to-any su larga scala. Esso consiste di 108k campioni di conversazioni multi-turn che intrecciano in modo complesso varie modalità, dotando così il modello di capacità di gestire combinazioni arbitrarie di input e output multimodali. I risultati sperimentali dimostrano che AnyGPT è in grado di facilitare conversazioni multimodali any-to-any, raggiungendo prestazioni comparabili a modelli specializzati in tutte le modalità, dimostrando che le rappresentazioni discrete possono unificare efficacemente e convenientemente più modalità all'interno di un modello linguistico. Le demo sono disponibili su https://junzhan2000.github.io/AnyGPT.github.io/.
La decodifica speculativa è una tecnica prominente per accelerare l'inferenza di un grande modello linguistico target basandosi sulle previsioni di un modello draft ausiliario. Sebbene efficace, in contesti specifici per applicazioni, spesso richiede il fine-tuning sia del modello draft che di quello target per ottenere alti tassi di accettazione. Man mano che il numero di task downstream aumenta, questi modelli draft aggiungono una complessità significativa ai sistemi di inferenza. Proponiamo Speculative Streaming, un metodo di decodifica speculativa a singolo modello che integra la fase di draft nel modello target modificando l'obiettivo di fine-tuning dalla previsione del token successivo alla previsione di n-grammi futuri. Speculative Streaming accelera la decodifica di 1,8 - 3,1X in un insieme diversificato di task, come Riassunto, Query Strutturate e Rappresentazione del Significato, senza sacrificare la qualità della generazione. Inoltre, Speculative Streaming è efficiente in termini di parametri. Raggiunge velocità pari/superiori rispetto alle architetture in stile Medusa utilizzando circa 10000X parametri aggiuntivi in meno, rendendolo particolarmente adatto per dispositivi con risorse limitate.
La quantizzazione dei modelli utilizza valori a bassa larghezza di bit per rappresentare le matrici dei pesi dei modelli, un approccio promettente per ridurre sia l'overhead di archiviazione che quello computazionale legato alla distribuzione degli attesissimi LLM. Tuttavia, i metodi di quantizzazione esistenti subiscono un grave degrado delle prestazioni quando la larghezza di bit è estremamente ridotta, e si concentrano quindi sull'utilizzo di valori a 4 bit o 8 bit per quantizzare i modelli. Questo articolo quantizza audacemente le matrici dei pesi degli LLM a 1 bit, aprendo la strada a una distribuzione degli LLM con larghezza di bit estremamente bassa. A tal fine, introduciamo un framework di addestramento con quantizzazione a 1 bit (QAT) chiamato OneBit, che include un innovativo metodo di rappresentazione dei parametri a 1 bit per quantizzare meglio gli LLM, nonché un efficace metodo di inizializzazione dei parametri basato sulla decomposizione matriciale per migliorare la velocità di convergenza del framework QAT. I risultati sperimentali dimostrano che OneBit raggiunge buone prestazioni (almeno l'83% delle prestazioni non quantizzate) con processi di addestramento robusti utilizzando solo matrici di pesi a 1 bit.
I grandi modelli linguistici (LLM) hanno dimostrato di possedere un'ampia gamma di capacità, come la scrittura di codice per robot a partire da comandi linguistici, consentendo a non esperti di dirigere i comportamenti dei robot, modificarli in base ai feedback o combinarli per eseguire nuovi compiti. Tuttavia, queste capacità (guidate dall'apprendimento in contesto) sono limitate a interazioni a breve termine, in cui i feedback degli utenti rimangono rilevanti solo finché rientrano nelle dimensioni del contesto dell'LLM e possono essere dimenticati in interazioni più lunghe. In questo lavoro, indaghiamo il fine-tuning degli LLM che scrivono codice per robot, affinché ricordino le loro interazioni in contesto e migliorino la loro "insegnabilità", ovvero quanto efficientemente si adattano agli input umani (misurato dal numero medio di correzioni prima che l'utente consideri il compito completato con successo). La nostra osservazione chiave è che quando le interazioni uomo-robot sono formulate come un processo decisionale di Markov parzialmente osservabile (in cui gli input linguistici umani sono osservazioni e le uscite di codice del robot sono azioni), allora addestrare un LLM a completare interazioni precedenti può essere visto come l'addestramento di un modello di dinamica delle transizioni, che può essere combinato con tecniche robotiche classiche come il controllo predittivo basato su modello (MPC) per scoprire percorsi più brevi verso il successo. Ciò dà origine al Controllo Predittivo basato su Modelli Linguistici (LMPC), un framework che esegue il fine-tuning di PaLM 2 per migliorare la sua insegnabilità su 78 compiti in 5 configurazioni robotiche, aumentando i tassi di successo nell'insegnamento di compiti non visti da parte di non esperti del 26,9% e riducendo il numero medio di correzioni umane da 2,4 a 1,9. Gli esperimenti mostrano che LMPC produce anche forti meta-apprendenti, migliorando il tasso di successo dell'apprendimento in contesto di nuovi compiti su configurazioni robotiche e API non viste del 31,5%. Guarda video, codice e demo su: https://robot-teaching.github.io/.
Il notevole successo dei Large Language Models (LLM) e del fine-tuning su istruzioni guida l'evoluzione dei Vision Language Models (VLM) verso un modello versatile e di uso generale. Tuttavia, rimane inesplorato se gli attuali VLM possiedano effettivamente capacità di comprensione dell'immagine a livello oggettivo, determinabili da domande come "quali oggetti sono presenti nell'immagine?" o "quale oggetto corrisponde a un riquadro di delimitazione specificato?". Le nostre scoperte rivelano che le capacità di comprensione delle immagini degli attuali VLM sono fortemente correlate con le loro prestazioni zero-shot su compiti di Vision Language (VL). Ciò suggerisce che dare priorità alla comprensione di base delle immagini è cruciale affinché i VLM eccellano nei compiti VL. Per migliorare la comprensione delle immagini a livello oggettivo, proponiamo Crayon Large Language and Vision mOdel (CoLLaVO), che incorpora il fine-tuning su istruzioni con prompt a pastello come un nuovo schema di sintonizzazione dei prompt visivi basato su mappe di colori panoptiche. Inoltre, presentiamo una strategia di apprendimento chiamata Dual QLoRA per preservare la comprensione delle immagini a livello oggettivo senza dimenticarla durante il fine-tuning su istruzioni visive, ottenendo così un significativo balzo in avanti nei numerosi benchmark VL zero-shot.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato prestazioni impressionanti nella comprensione del linguaggio e nell'esecuzione di compiti di ragionamento complesso. Tuttavia, gli LLM con finestre di contesto lunghe sono notoriamente costosi da addestrare e presentano un'elevata latenza durante l'inferenza. Anche i modelli più avanzati come GPT-4 e Claude2 commettono spesso errori quando elaborano input superiori a 100k token, un fenomeno noto anche come "lost in the middle". In questo articolo, proponiamo LongAgent, un metodo basato sulla collaborazione multi-agente, che scala gli LLM (ad esempio, LLaMA) a un contesto di 128K e dimostra una potenziale superiorità nell'elaborazione di testi lunghi rispetto a GPT-4. In LongAgent, un leader è responsabile della comprensione dell'intento dell'utente e della direzione dei membri del team per acquisire informazioni dai documenti. A causa delle allucinazioni dei membri, non è banale per un leader ottenere informazioni accurate dalle risposte di decine o centinaia di membri. Per affrontare questo problema, sviluppiamo un meccanismo di comunicazione inter-membro per risolvere i conflitti di risposta causati dalle allucinazioni attraverso la condivisione delle informazioni. I nostri risultati sperimentali indicano che LongAgent offre un'alternativa promettente per l'elaborazione di testi lunghi. Il team di agenti istanziato con LLaMA-7B ottiene miglioramenti significativi in compiti come il recupero di testi lunghi 128k e la risposta a domande multi-hop, rispetto a GPT-4.
La qualità dei dati di fine-tuning è cruciale per allineare i grandi modelli linguistici (LLM) ai valori umani. I metodi attuali per migliorare la qualità dei dati sono o laboriosi o soggetti a errori fattuali causati da allucinazioni degli LLM. Questo articolo esplora come elevare la qualità dei dati di istruzione esistenti per allinearli meglio ai valori umani, introducendo un approccio semplice ed efficace denominato ReAlign, che riformatta le risposte dei dati di istruzione in un formato che si allinea meglio ai criteri predefiniti e alle prove raccolte. Questo approccio minimizza l'annotazione umana, le allucinazioni e le difficoltà di scalabilità, rimanendo ortogonale alle tecniche di allineamento esistenti. Sperimentalmente, ReAlign migliora significativamente la capacità generale di allineamento, il ragionamento matematico, la fattualità e la leggibilità degli LLM. In modo incoraggiante, senza introdurre dati aggiuntivi o tecniche di addestramento avanzate, e semplicemente riformattando la risposta, la capacità di ragionamento matematico di LLaMA-2-13B su GSM8K può essere migliorata dal 46,77% al 56,63% in termini di accuratezza. Inoltre, un mero 5% di dati ReAlign produce un aumento del 67% nella capacità generale di allineamento misurata dal dataset Alpaca. Questo lavoro sottolinea la necessità di ulteriori ricerche sulla scienza e l'interpretabilità meccanicistica degli LLM. Abbiamo reso pubblicamente accessibili il codice e i dati associati per supportare studi futuri all'indirizzo https://github.com/GAIR-NLP/ReAlign.
I modelli linguistici all'avanguardia possono mostrare impressionanti capacità di affinamento del ragionamento in compiti di matematica, scienze o programmazione. Tuttavia, lavori recenti dimostrano che anche i migliori modelli faticano a identificare quando e dove affinare senza accesso a feedback esterni. I Modelli di Ricompensa Basati sul Risultato (ORMs), addestrati a prevedere la correttezza della risposta finale per indicare quando affinare, offrono una soluzione conveniente per decidere quando procedere. I Modelli di Ricompensa Basati sul Processo (PRMs), addestrati a prevedere la correttezza dei passaggi intermedi, possono quindi essere utilizzati per indicare dove affinare. Tuttavia, sono costosi da addestrare, richiedendo annotazioni umane estese. In questo articolo, proponiamo i Modelli di Ricompensa Stepwise (SORMs), addestrati esclusivamente su dati sintetici, per approssimare la ricompensa futura attesa della politica ottimale o \(V^{\star}\). Più specificamente, i SORMs sono addestrati a prevedere la correttezza della risposta finale quando si campiona la politica corrente molte volte (anziché una sola volta come nel caso degli ORMs). I nostri esperimenti mostrano che i SORMs possono rilevare in modo più accurato i passaggi di ragionamento errati rispetto agli ORMs, migliorando così l'accuratezza a valle durante gli affinamenti. Successivamente, addestriamo modelli di affinamento globale, che prendono in input solo la domanda e una bozza di soluzione per prevedere una soluzione corretta, e modelli di affinamento locale che prendono in input anche una critica che indica la posizione del primo errore di ragionamento. Generiamo dati di addestramento per entrambi i modelli sinteticamente riutilizzando i dati utilizzati per addestrare il SORM. Troviamo che combinare affinamenti globali e locali, utilizzando l'ORM come riordinatore, supera significativamente entrambi i metodi individualmente, nonché una baseline basata sul miglior campione di tre. Con questa strategia, possiamo migliorare l'accuratezza di un modello LLaMA-2 13B (già ottimizzato con RL) su GSM8K dal 53% al 65% quando campionato in modo greedy.
Questo articolo presenta un metodo innovativo per esercitare un controllo fine dell'illuminazione durante la generazione di immagini basata su modelli di diffusione guidati da testo. Sebbene i modelli di diffusione esistenti siano già in grado di generare immagini in qualsiasi condizione di illuminazione, senza ulteriori indicazioni questi modelli tendono a correlare il contenuto dell'immagine con l'illuminazione. Inoltre, i prompt testuali non possiedono il potere espressivo necessario per descrivere configurazioni di illuminazione dettagliate. Per fornire al creatore di contenuti un controllo fine sull'illuminazione durante la generazione delle immagini, arricchiamo il prompt testuale con informazioni dettagliate sull'illuminazione sotto forma di suggerimenti di radianza, ovvero visualizzazioni della geometria della scena con un materiale canonico omogeneo sotto l'illuminazione target. Tuttavia, la geometria della scena necessaria per produrre i suggerimenti di radianza è sconosciuta. La nostra osservazione chiave è che abbiamo solo bisogno di guidare il processo di diffusione, quindi suggerimenti di radianza esatti non sono necessari; abbiamo solo bisogno di indirizzare il modello di diffusione nella giusta direzione. Sulla base di questa osservazione, introduciamo un metodo in tre fasi per controllare l'illuminazione durante la generazione delle immagini. Nella prima fase, sfruttiamo un modello di diffusione pre-addestrato standard per generare un'immagine provvisoria con illuminazione non controllata. Successivamente, nella seconda fase, risintetizziamo e perfezioniamo l'oggetto in primo piano nell'immagine generata passando l'illuminazione target a un modello di diffusione raffinato, denominato DiLightNet, utilizzando suggerimenti di radianza calcolati su una forma approssimativa dell'oggetto in primo piano dedotta dall'immagine provvisoria. Per mantenere i dettagli della texture, moltiplichiamo i suggerimenti di radianza con una codifica neurale dell'immagine sintetizzata provvisoria prima di passarli a DiLightNet. Infine, nella terza fase, risintetizziamo lo sfondo per renderlo coerente con l'illuminazione sull'oggetto in primo piano. Dimostriamo e validiamo il nostro modello di diffusione controllato dall'illuminazione su una varietà di prompt testuali e condizioni di illuminazione.
Sebbene gli algoritmi di sintesi della vista basati su superfici siano attraenti per i loro bassi requisiti computazionali, spesso faticano a riprodurre strutture sottili. Al contrario, metodi più costosi che modellano la geometria della scena come un campo di densità volumetrica (ad esempio, NeRF) eccellono nella ricostruzione di dettagli geometrici fini. Tuttavia, i campi di densità spesso rappresentano la geometria in modo "sfocato", il che ostacola la localizzazione esatta della superficie. In questo lavoro, modifichiamo i campi di densità per incoraggiarli a convergere verso le superfici, senza compromettere la loro capacità di ricostruire strutture sottili. Innanzitutto, utilizziamo una rappresentazione a griglia di opacità discreta invece di un campo di densità continuo, che consente ai valori di opacità di passare in modo discontinuo da zero a uno sulla superficie. In secondo luogo, anti-aliasiamo lanciando più raggi per pixel, il che consente di modellare i confini di occlusione e le strutture sub-pixel senza utilizzare voxel semi-trasparenti. In terzo luogo, minimizziamo l'entropia binaria dei valori di opacità, il che facilita l'estrazione della geometria superficiale incoraggiando i valori di opacità a binarizzarsi verso la fine dell'addestramento. Infine, sviluppiamo una strategia di mesh basata sulla fusione, seguita da semplificazione della mesh e adattamento del modello di aspetto. Le mesh compatte prodotte dal nostro modello possono essere renderizzate in tempo reale su dispositivi mobili e raggiungono una qualità di sintesi della vista significativamente superiore rispetto agli approcci basati su mesh esistenti.
Nonostante le straordinarie capacità dei modelli visione-linguaggio (VLMs) come assistenti visivi versatili, due sfide significative persistono all'interno degli attuali framework VLM: (1) la mancanza di diversità nei compiti durante il pre-training e la messa a punto delle istruzioni visive, e (2) gli errori di annotazione e i bias nei dati di messa a punto delle istruzioni sintetizzati da GPT-4. Entrambe le sfide portano a problemi come una scarsa generalizzabilità, allucinazioni e dimenticanza catastrofica. Per affrontare queste sfide, abbiamo costruito Vision-Flan, il dataset di messa a punto delle istruzioni visive più diversificato attualmente disponibile al pubblico, comprendente 187 compiti diversi e 1.664.261 istanze provenienti da dataset accademici, e ogni compito è accompagnato da un'istruzione scritta da esperti. Inoltre, proponiamo un framework di messa a punto delle istruzioni in due fasi, in cui i VLMs vengono prima messi a punto su Vision-Flan e ulteriormente ottimizzati sui dati sintetizzati da GPT-4. Abbiamo scoperto che questo framework di messa a punto in due fasi supera significativamente il tradizionale framework di messa a punto delle istruzioni visive in una sola fase e raggiunge prestazioni all'avanguardia in un'ampia gamma di benchmark di valutazione multi-modale. Infine, conduciamo analisi approfondite per comprendere la messa a punto delle istruzioni visive e le nostre scoperte rivelano che: (1) i dati sintetizzati da GPT-4 non migliorano sostanzialmente le capacità dei VLMs, ma piuttosto modulano le risposte del modello in formati preferiti dagli esseri umani; (2) una quantità minima (ad esempio, 1.000) di dati sintetizzati da GPT-4 può allineare efficacemente le risposte dei VLMs con le preferenze umane; (3) la messa a punto delle istruzioni visive aiuta principalmente i modelli linguistici di grandi dimensioni (LLMs) a comprendere le caratteristiche visive.
I modelli auto-regressivi hanno ottenuto risultati impressionanti nella generazione di immagini 2D modellando distribuzioni congiunte nello spazio a griglia. In questo articolo, estendiamo i modelli auto-regressivi ai domini 3D, cercando di potenziare la capacità di generazione di forme 3D migliorando contemporaneamente la capacità e la scalabilità dei modelli auto-regressivi. In primo luogo, sfruttiamo un insieme di dataset 3D pubblicamente disponibili per facilitare l'addestramento di modelli su larga scala. Questo insieme comprende una raccolta completa di circa 900.000 oggetti, con molteplici proprietà come mesh, punti, voxel, immagini renderizzate e didascalie testuali. Questo dataset eterogeneo ed etichettato, denominato Objaverse-Mix, consente al nostro modello di apprendere da una vasta gamma di variazioni di oggetti. Tuttavia, l'applicazione diretta dell'auto-regressione 3D incontra sfide critiche legate all'elevato costo computazionale richiesto dalle griglie volumetriche e all'ordine auto-regressivo ambiguo lungo le dimensioni della griglia, portando a una qualità inferiore delle forme 3D. A tal fine, presentiamo quindi un nuovo framework chiamato Argus3D in termini di capacità. Nello specifico, il nostro approccio introduce un apprendimento di rappresentazione discreta basato su un vettore latente anziché su griglie volumetriche, il quale non solo riduce i costi computazionali ma preserva anche i dettagli geometrici essenziali apprendendo le distribuzioni congiunte in un ordine più gestibile. La capacità di generazione condizionata può quindi essere realizzata semplicemente concatenando vari input condizionanti al vettore latente, come nuvole di punti, categorie, immagini e testi. Inoltre, grazie alla semplicità della nostra architettura di modello, scaliamo naturalmente il nostro approccio a un modello più grande con un impressionante numero di 3,6 miliardi di parametri, migliorando ulteriormente la qualità della generazione versatile di forme 3D. Esperimenti estesi su quattro task di generazione dimostrano che Argus3D può sintetizzare forme diverse e fedeli attraverso molteplici categorie, raggiungendo prestazioni notevoli.