Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo Florence-2, un innovativo modello di base per la visione con una rappresentazione unificata basata su prompt per una varietà di task di computer vision e visione-linguaggio. Mentre i modelli di visione di grandi dimensioni esistenti eccellono nel transfer learning, faticano a eseguire una diversità di task con semplici istruzioni, una capacità che implica la gestione della complessità di varie gerarchie spaziali e granularità semantiche. Florence-2 è stato progettato per accettare prompt testuali come istruzioni per i task e generare risultati desiderabili in forma testuale, che si tratti di captioning, rilevamento di oggetti, grounding o segmentazione. Questa configurazione di apprendimento multi-task richiede dati annotati su larga scala e di alta qualità. A tal fine, abbiamo co-sviluppato FLD-5B, che consiste in 5,4 miliardi di annotazioni visive complete su 126 milioni di immagini, utilizzando una strategia iterativa di annotazione automatica delle immagini e affinamento del modello. Abbiamo adottato una struttura sequenza-a-sequenza per addestrare Florence-2 a eseguire task di visione versatili e completi. Valutazioni estensive su numerosi task hanno dimostrato che Florence-2 è un forte contendente come modello di base per la visione, con capacità senza precedenti in termini di zero-shot e fine-tuning.
Raggiungere una pianificazione e un controllo simili a quelli umani con osservazioni multimodali in un mondo aperto rappresenta una pietra miliare fondamentale per agenti generalisti più funzionali. Gli approcci esistenti sono in grado di gestire determinati compiti a lungo termine in un mondo aperto. Tuttavia, continuano a incontrare difficoltà quando il numero di compiti nel mondo aperto potrebbe essere potenzialmente infinito e mancano della capacità di migliorare progressivamente il completamento dei compiti man mano che il tempo di gioco avanza. Presentiamo JARVIS-1, un agente per mondi aperti in grado di percepire input multimodali (osservazioni visive e istruzioni umane), generare piani sofisticati ed eseguire controlli incarnati, tutto all'interno dell'universo aperto e impegnativo di Minecraft. Nello specifico, sviluppiamo JARVIS-1 sulla base di modelli linguistici multimodali pre-addestrati, che mappano osservazioni visive e istruzioni testuali a piani. I piani verranno infine inviati ai controller condizionati agli obiettivi. Dotiamo JARVIS-1 di una memoria multimodale, che facilita la pianificazione utilizzando sia conoscenze pre-addestrate che le sue esperienze di sopravvivenza nel gioco. Nei nostri esperimenti, JARVIS-1 mostra prestazioni quasi perfette in oltre 200 compiti vari del Minecraft Universe Benchmark, che vanno dal livello base a quello intermedio. JARVIS-1 ha raggiunto un tasso di completamento del 12,5% nel compito a lungo termine del piccone di diamante. Questo rappresenta un aumento significativo fino a 5 volte rispetto ai record precedenti. Inoltre, dimostriamo che JARVIS-1 è in grado di auto-migliorarsi seguendo un paradigma di apprendimento permanente grazie alla memoria multimodale, stimolando un'intelligenza più generale e una maggiore autonomia. La pagina del progetto è disponibile all'indirizzo https://craftjarvis-jarvis1.github.io.
I modelli di diffusione per la generazione di testo-3D hanno compiuto progressi significativi negli ultimi anni. Tuttavia, i metodi esistenti si basano su ottimizzazioni basate sulla distillazione del punteggio, che soffrono di inferenza lenta, bassa diversità e problemi di Janus, oppure sono metodi feed-forward che producono risultati di bassa qualità a causa della scarsità di dati di addestramento 3D. In questo articolo, proponiamo Instant3D, un metodo innovativo che genera risorse 3D di alta qualità e diversificate da prompt di testo in modalità feed-forward. Adottiamo un paradigma a due stadi, che prima genera un insieme sparso di quattro viste strutturate e coerenti da testo in un solo passaggio con un modello di diffusione testo-immagine 2D fine-tuned, e poi regredisce direttamente il NeRF dalle immagini generate con un ricostruttore sparso basato su transformer. Attraverso esperimenti estensivi, dimostriamo che il nostro metodo può generare risorse 3D di alta qualità, diversificate e prive di problemi Janus in meno di 20 secondi, il che è due ordini di grandezza più veloce rispetto ai metodi basati su ottimizzazione che possono richiedere da 1 a 10 ore. La nostra pagina web del progetto: https://jiahao.ai/instant3d/.
Presentiamo Lumos, un nuovo framework per l'addestramento di agenti linguistici che utilizza un formato di dati unificato e un'architettura modulare basata su modelli linguistici di grandi dimensioni (LLM) open-source. Lumos è composto da tre moduli distinti: pianificazione, contestualizzazione ed esecuzione. Il modulo di pianificazione scompone un compito in una serie di sotto-obiettivi di alto livello, indipendenti dagli strumenti, che vengono poi resi specifici dal modulo di contestualizzazione attraverso un insieme di azioni di basso livello. Queste azioni vengono successivamente eseguite dal modulo di esecuzione, utilizzando una gamma di strumenti e API disponibili sul mercato. Per addestrare efficacemente questi moduli, sono state raccolte annotazioni di alta qualità sui sotto-obiettivi e sulle azioni, che vengono messe a disposizione per il fine-tuning di LLM open-source per vari compiti come risposte a domande complesse, attività web e problemi matematici. Sfruttando questo design unificato e modulare, Lumos non solo raggiunge prestazioni comparabili o superiori agli attuali agenti all'avanguardia, ma mostra anche diversi vantaggi chiave: (1) Lumos supera gli agenti basati su GPT-4/3.5 nelle risposte a domande complesse e nelle attività web, eguagliando le prestazioni di agenti LLM significativamente più grandi nei compiti matematici; (2) Lumos supera gli agenti open-source creati con metodi di addestramento convenzionali e quelli che utilizzano il training a catena di pensieri; e (3) Lumos è in grado di generalizzare efficacemente a compiti interattivi non visti, superando agenti basati su LLM più grandi e persino superando le prestazioni di agenti specializzati.
I grandi modelli linguistici (LLM) eccellono in molti compiti nell'ambito del NLP e oltre, ma la maggior parte dei modelli open ha una copertura molto limitata per le lingue minori e il lavoro sugli LLM tende a concentrarsi su lingue per cui sono disponibili dati pressoché illimitati per il pre-training. In questo lavoro, studiamo le sfide legate alla creazione di LLM per il finlandese, una lingua parlata da meno dello 0,1% della popolazione mondiale. Compiliamo un ampio dataset di finlandese combinando crawl web, notizie, social media ed eBook. Seguiamo due approcci per il pre-training dei modelli: 1) addestriamo da zero sette modelli monolingue (da 186M a 13B parametri) denominati FinGPT, 2) continuiamo il pre-training del modello multilingue BLOOM su un mix dei suoi dati di addestramento originali e di finlandese, ottenendo un modello da 176 miliardi di parametri che chiamiamo BLUUMI. Per la valutazione dei modelli, introduciamo FIN-bench, una versione di BIG-bench con compiti in finlandese. Valutiamo anche altre qualità dei modelli, come la tossicità e i bias. I nostri modelli e strumenti sono disponibili pubblicamente all'indirizzo https://turkunlp.org/gpt3-finnish.
L'ingegneria dei prompt è un compito impegnativo ma cruciale per ottimizzare le prestazioni dei grandi modelli linguistici (LLM). Richiede un ragionamento complesso per analizzare gli errori del modello, ipotizzare cosa manchi o sia fuorviante nel prompt corrente e comunicare il compito con chiarezza. Sebbene lavori recenti indichino che gli LLM possano essere meta-promptati per eseguire automaticamente l'ingegneria dei prompt, il loro potenziale potrebbe non essere pienamente sfruttato a causa della mancanza di una guida sufficiente per elicitare capacità di ragionamento complesso negli LLM nel meta-prompt. In questo lavoro, investigiamo il problema dell'"ingegneria dei prompt per un ingegnere dei prompt" – costruire un meta-prompt che guidi in modo più efficace gli LLM a eseguire automaticamente l'ingegneria dei prompt. Introduciamo e analizziamo componenti chiave, come un modello di ragionamento passo-passo e una specificazione del contesto, che portano a prestazioni migliorate. Inoltre, ispirati da concetti comuni di ottimizzazione come dimensione del batch, dimensione del passo e momento, introduciamo le loro controparti verbalizzate nel meta-prompt e ne investigiamo gli effetti. Il nostro metodo finale, denominato PE2, trova un prompt che supera "pensiamo passo dopo passo" del 6,3% sul dataset MultiArith e del 3,1% sul dataset GSM8K. Per dimostrarne la versatilità, applichiamo PE2 al benchmark Instruction Induction, a una serie di task controfattuali e a un lungo prompt industriale del mondo reale. In questi contesti, PE2 raggiunge prestazioni solide e supera le precedenti baseline di ingegneria automatica dei prompt. Inoltre, mostriamo che PE2 apporta modifiche significative e mirate ai prompt, corregge prompt errati o incompleti e presenta capacità non banali di ragionamento controfattuale.
Il ragionamento logico è un aspetto fondamentale dell'intelligenza umana e un componente chiave di attività come la risoluzione di problemi e il processo decisionale. I recenti progressi hanno permesso ai Large Language Model (LLM) di potenzialmente esibire capacità di ragionamento, ma il ragionamento logico complesso rimane una sfida. Lo stato dell'arte, rappresentato dai modelli linguistici potenziati da solutori, utilizza gli LLM per analizzare le domande logiche espresse in linguaggio naturale e convertirle in rappresentazioni simboliche, per poi adottare solutori logici esterni che elaborano tali rappresentazioni e producono le risposte. Nonostante le prestazioni impressionanti, qualsiasi errore di analisi porterà inevitabilmente al fallimento dell'esecuzione del solutore logico esterno e all'assenza di risposte alle domande logiche. In questo articolo, introduciamo LoGiPT, un nuovo modello linguistico che emula direttamente i processi di ragionamento dei solutori logici e aggira gli errori di analisi imparando a rispettare rigorosamente la sintassi e la grammatica dei solutori. LoGiPT viene ottimizzato su un nuovo dataset di messa a punto delle istruzioni, costruito rivelando e affinando il processo di ragionamento invisibile dei solutori deduttivi. I risultati sperimentali su due dataset pubblici di ragionamento deduttivo dimostrano che LoGiPT supera i modelli linguistici potenziati da solutori all'avanguardia e i metodi di prompting few-shot su LLM competitivi come ChatGPT o GPT-4.
I grandi modelli di base stanno diventando onnipresenti, ma addestrarli da zero è proibitivamente costoso. Pertanto, adattare in modo efficiente questi potenti modelli a compiti downstream sta diventando sempre più importante. In questo articolo, studiamo un paradigma di fine-tuning basato su principi -- il Fine-tuning Ortogonale (OFT) -- per l'adattamento a compiti downstream. Nonostante dimostri una buona generalizzabilità, l'OFT utilizza ancora un numero piuttosto elevato di parametri addestrabili a causa dell'elevata dimensionalità delle matrici ortogonali. Per affrontare questo problema, iniziamo esaminando l'OFT da una prospettiva di trasmissione delle informazioni, e poi identifichiamo alcuni requisiti chiave che consentono una maggiore efficienza nei parametri. Ispirati da come l'algoritmo di trasformata veloce di Fourier di Cooley-Tukey consente una trasmissione efficiente delle informazioni, proponiamo una parametrizzazione ortogonale efficiente utilizzando strutture a farfalla. Applichiamo questa parametrizzazione all'OFT, creando un nuovo metodo di fine-tuning efficiente nei parametri, chiamato Orthogonal Butterfly (BOFT). Includendo l'OFT come caso speciale, il BOFT introduce un framework generalizzato di fine-tuning ortogonale. Infine, conduciamo uno studio empirico approfondito sull'adattamento di grandi trasformatori per la visione, grandi modelli linguistici e modelli di diffusione testo-immagine a vari compiti downstream nel campo della visione e del linguaggio.
I modelli convoluzionali con filtri lunghi hanno dimostrato capacità di ragionamento all'avanguardia in molti compiti che coinvolgono sequenze lunghe, ma rimangono indietro rispetto ai Transformer più ottimizzati in termini di tempo di esecuzione. Un collo di bottiglia principale è la Trasformata Rapida di Fourier (FFT), che consente alle convoluzioni lunghe di essere eseguite in tempo O(N logN) rispetto alla lunghezza della sequenza N, ma ha una scarsa utilizzazione hardware. In questo articolo, studiamo come ottimizzare la convoluzione FFT. Identifichiamo due colli di bottiglia chiave: la FFT non utilizza efficacemente le unità specializzate per la moltiplicazione di matrici e comporta costose operazioni di I/O tra i livelli della gerarchia di memoria. In risposta, proponiamo FlashFFTConv. FlashFFTConv utilizza una decomposizione matriciale che calcola la FFT utilizzando le unità di moltiplicazione di matrici e abilita la fusione dei kernel per sequenze lunghe, riducendo l'I/O. Presentiamo inoltre due algoritmi di convoluzione sparsa: 1) convoluzioni parziali e 2) convoluzioni sparse in frequenza, che possono essere implementati semplicemente saltando blocchi nella decomposizione matriciale, offrendo ulteriori opportunità di risparmio di memoria e calcolo. FlashFFTConv accelera le convoluzioni FFT esatte fino a 7,93 volte rispetto a PyTorch e raggiunge un miglioramento end-to-end fino a 4,4 volte. Con lo stesso budget di calcolo, FlashFFTConv consente a Hyena-GPT-s di ottenere 2,3 punti in meno di perplessità su PILE e a M2-BERT-base di ottenere 3,3 punti in più nel punteggio GLUE, eguagliando modelli con il doppio del numero di parametri. FlashFFTConv raggiunge anche il 96,1% di accuratezza su Path-512, un compito di visione ad alta risoluzione in cui nessun modello aveva precedentemente superato il 50%. Inoltre, le convoluzioni parziali abilitano modelli per sequenze più lunghe, producendo il primo modello di DNA in grado di elaborare i geni umani più lunghi (2,3 milioni di coppie di basi), e le convoluzioni sparse in frequenza accelerano i modelli pre-addestrati mantenendo o migliorando la qualità del modello.
I modelli linguistici di grandi dimensioni (LLM) sono sempre più utilizzati per compiti decisionali interattivi che richiedono pianificazione e adattamento all'ambiente. Recenti lavori impiegano gli LLM come agenti principalmente in due modi: determinando iterativamente l'azione successiva (esecutori iterativi) o generando piani ed eseguendo sotto-compiti utilizzando gli LLM (pianifica-e-esegui). Tuttavia, questi metodi faticano a gestire la complessità dei compiti, poiché l'incapacità di eseguire qualsiasi sotto-compito può portare al fallimento del compito. Per affrontare queste carenze, introduciamo As-Needed Decomposition and Planning for complex Tasks (ADaPT), un approccio che pianifica e scompone esplicitamente i sotto-compiti complessi solo quando necessario, cioè quando l'LLM non è in grado di eseguirli. ADaPT scompone ricorsivamente i sotto-compiti per adattarsi sia alla complessità del compito che alle capacità dell'LLM. I nostri risultati dimostrano che ADaPT supera significativamente i benchmark consolidati, raggiungendo tassi di successo fino al 28,3% più alti in ALFWorld, 27% in WebShop e 33% in TextCraft -- un nuovo dataset composizionale che introduciamo. Attraverso un'analisi approfondita, illustriamo l'importanza della scomposizione multilivello e dimostriamo che ADaPT si adatta dinamicamente alle capacità dell'LLM esecutore e alla complessità del compito.
Una delle principali sfide dell'apprendimento multimodale è la necessità di combinare modalità eterogenee (ad esempio, video, audio, testo). Ad esempio, video e audio vengono acquisiti a frequenze molto più elevate rispetto al testo e sono approssimativamente allineati nel tempo. Spesso non sono sincronizzati con il testo, che arriva come contesto globale, ad esempio un titolo o una descrizione. Inoltre, gli input video e audio hanno volumi molto più grandi e crescono con l'aumento della durata del video, il che richiede naturalmente più risorse di calcolo dedicate a queste modalità e rende più difficile la modellazione delle dipendenze a lungo raggio. Qui separiamo la modellazione multimodale, dividendola in modelli autoregressivi separati e focalizzati, che elaborano gli input in base alle caratteristiche delle modalità. Proponiamo un modello multimodale, chiamato Mirasol3B, costituito da un componente autoregressivo per le modalità sincronizzate nel tempo (audio e video) e un componente autoregressivo per le modalità di contesto che non sono necessariamente allineate nel tempo ma sono comunque sequenziali. Per affrontare le sequenze lunghe degli input video-audio, proponiamo di suddividere ulteriormente le sequenze video e audio in snippet consecutivi e di elaborare autoregressivamente le loro rappresentazioni. A tal fine, proponiamo un meccanismo Combiner, che modella congiuntamente le informazioni audio-video all'interno di un intervallo di tempo. Il Combiner impara a estrarre caratteristiche audio e video da segnali spazio-temporali grezzi, e poi impara a fondere queste caratteristiche producendo rappresentazioni compatte ma espressive per ogni snippet. Il nostro approccio raggiunge lo stato dell'arte su benchmark multimodali consolidati, superando modelli molto più grandi. Affronta efficacemente l'elevata domanda computazionale degli input multimediali sia apprendendo rappresentazioni compatte, controllando la lunghezza della sequenza delle rappresentazioni delle caratteristiche audio-video, sia modellando le loro dipendenze nel tempo.
I compiti di predizione densa, come la segmentazione semantica, la stima della profondità e la predizione delle normali di superficie, possono essere facilmente formulati come classificazione per pixel (output discreti) o regressione (output continui). Questo paradigma di predizione per pixel è rimasto popolare grazie alla diffusione delle reti completamente convoluzionali. Tuttavia, sulla recente frontiera dei compiti di segmentazione, la comunità ha assistito a un cambiamento di paradigma dalla predizione per pixel alla predizione a cluster con l'emergere delle architetture transformer, in particolare i mask transformer, che predicono direttamente un'etichetta per una maschera invece che per un pixel. Nonostante questo cambiamento, i metodi basati sul paradigma di predizione per pixel dominano ancora i benchmark per gli altri compiti di predizione densa che richiedono output continui, come la stima della profondità e la predizione delle normali di superficie. Ispirati dal successo di DORN e AdaBins nella stima della profondità, ottenuto discretizzando lo spazio di output continuo, proponiamo di generalizzare il metodo basato sulla predizione a cluster ai compiti generali di predizione densa. Questo ci permette di unificare i compiti di predizione densa con il framework dei mask transformer. In modo notevole, il modello risultante PolyMaX dimostra prestazioni all'avanguardia su tre benchmark del dataset NYUD-v2. Speriamo che il nostro design semplice ma efficace possa ispirare ulteriori ricerche sullo sfruttamento dei mask transformer per più compiti di predizione densa. Codice e modello saranno resi disponibili.
L'apprendimento delle interazioni tra feature rappresenta l'elemento fondamentale per la costruzione di sistemi di raccomandazione. Nelle applicazioni su scala web, apprendere queste interazioni è estremamente complesso a causa dello spazio di input delle feature, che è sia ampio che sparso; allo stesso tempo, la creazione manuale di interazioni efficaci tra feature è impraticabile a causa dello spazio esponenziale delle soluzioni. Proponiamo di sfruttare un'architettura basata su Transformer con livelli di attenzione per catturare automaticamente le interazioni tra feature. Le architetture Transformer hanno ottenuto grande successo in molti domini, come l'elaborazione del linguaggio naturale e la visione artificiale. Tuttavia, l'adozione dell'architettura Transformer per la modellazione delle interazioni tra feature nell'industria è stata limitata. Il nostro obiettivo è colmare questa lacuna. Identifichiamo due sfide chiave per l'applicazione dell'architettura Transformer standard ai sistemi di raccomandazione su scala web: (1) l'architettura Transformer non riesce a catturare le interazioni eterogenee tra feature nel livello di self-attention; (2) la latenza di servizio dell'architettura Transformer potrebbe essere troppo elevata per essere implementata in sistemi di raccomandazione su scala web. Proponiamo innanzitutto un livello di self-attention eterogeneo, una modifica semplice ma efficace al livello di self-attention del Transformer, per tenere conto dell'eterogeneità delle interazioni tra feature. Introduciamo quindi Hiformer (Heterogeneous Interaction Transformer) per migliorare ulteriormente l'espressività del modello. Grazie all'approssimazione a basso rango e alla potatura del modello, Hiformer garantisce un'inferenza rapida per il deployment online. I risultati estesi degli esperimenti offline confermano l'efficacia e l'efficienza del modello Hiformer. Abbiamo implementato con successo il modello Hiformer in un modello di ranking su larga scala per app su Google Play, ottenendo un miglioramento significativo nelle metriche chiave di engagement (fino a +2,66%).
Il modello transformer ha guadagnato un'ampia adozione nelle attività di computer vision negli ultimi tempi. Tuttavia, a causa della complessità quadratica in termini di tempo e memoria dell'auto-attenzione, che è proporzionale al numero di token di input, la maggior parte degli esistenti Vision Transformers (ViT) incontra difficoltà nel raggiungere prestazioni efficienti negli scenari di implementazione industriale pratica, come TensorRT e CoreML, dove le tradizionali CNN eccellono. Sebbene alcuni recenti tentativi siano stati fatti per progettare architetture ibride CNN-Transformer per affrontare questo problema, le loro prestazioni complessive non hanno soddisfatto le aspettative. Per affrontare queste sfide, proponiamo un'architettura ibrida ViT efficiente denominata FMViT. Questo approccio migliora il potere espressivo del modello mescolando caratteristiche ad alta frequenza e caratteristiche a bassa frequenza con frequenze variabili, consentendogli di catturare efficacemente sia informazioni locali che globali. Inoltre, introduciamo meccanismi adatti all'implementazione come la Convolutional Multigroup Reparameterization (gMLP), la Lightweight Multi-head Self-Attention (RLMHSA) e il Convolutional Fusion Block (CFB) per migliorare ulteriormente le prestazioni del modello e ridurre il sovraccarico computazionale. I nostri esperimenti dimostrano che FMViT supera le esistenti CNN, ViT e architetture ibride CNN-Transformer in termini di compromessi tra latenza/accuratezza per varie attività di visione. Sulla piattaforma TensorRT, FMViT supera Resnet101 del 2,5% (83,3% vs. 80,8%) in termini di accuratezza top-1 sul dataset ImageNet mantenendo una latenza di inferenza simile. Inoltre, FMViT raggiunge prestazioni comparabili con EfficientNet-B5, ma con un miglioramento del 43% nella velocità di inferenza. Su CoreML, FMViT supera MobileOne del 2,6% in termini di accuratezza top-1 sul dataset ImageNet, con una latenza di inferenza comparabile a MobileOne (78,5% vs. 75,9%). Il nostro codice è disponibile all'indirizzo https://github.com/tany0699/FMViT.