Articoli di ricerca IA selezionati quotidianamente con traduzioni
In questo lavoro, proponiamo Retentive Network (RetNet) come architettura di base per i modelli linguistici di grandi dimensioni, raggiungendo simultaneamente parallelismo nell'addestramento, inferenza a basso costo e buone prestazioni. Teoricamente, deriviamo la connessione tra ricorrenza e attenzione. Successivamente, proponiamo il meccanismo di retention per la modellazione di sequenze, che supporta tre paradigmi computazionali, ovvero parallelo, ricorrente e ricorrente a blocchi. Nello specifico, la rappresentazione parallela consente il parallelismo nell'addestramento. La rappresentazione ricorrente permette un'inferenza a basso costo O(1), migliorando il throughput di decodifica, la latenza e la memoria GPU senza sacrificare le prestazioni. La rappresentazione ricorrente a blocchi facilita una modellazione efficiente di sequenze lunghe con complessità lineare, dove ogni blocco viene codificato in parallelo mentre i blocchi vengono riassunti in modo ricorrente. I risultati sperimentali sulla modellazione linguistica mostrano che RetNet ottiene risultati favorevoli in termini di scalabilità, addestramento parallelo, distribuzione a basso costo e inferenza efficiente. Queste proprietà intriganti rendono RetNet un forte successore del Transformer per i modelli linguistici di grandi dimensioni. Il codice sarà disponibile all'indirizzo https://aka.ms/retnet.
Le tabelle sono ampiamente presenti nei database del mondo reale, richiedendo un tempo e uno sforzo significativi per l'analisi e la manipolazione da parte degli esseri umani. I progressi nei modelli linguistici di grandi dimensioni (LLM) hanno reso possibile interagire con le tabelle utilizzando input in linguaggio naturale, avvicinando questa capacità alla realtà. In questo articolo, presentiamo TableGPT, un framework unificato e fine-tuned che consente agli LLM di comprendere e operare su tabelle utilizzando comandi funzionali esterni. Introduce la capacità di interagire in modo fluido con le tabelle, abilitando una vasta gamma di funzionalità come risposte a domande, manipolazione dei dati (ad esempio, operazioni di inserimento, cancellazione, query e modifica), visualizzazione dei dati, generazione di report di analisi e previsioni automatizzate. TableGPT mira a fornire convenienza e accessibilità agli utenti, consentendo loro di sfruttare senza sforzo i dati tabulari. Al centro di TableGPT si trova il concetto innovativo di rappresentazioni tabulari globali, che consente agli LLM di ottenere una comprensione completa dell'intera tabella, andando oltre le meta-informazioni. Addestrando congiuntamente gli LLM su entrambe le modalità di tabella e testo, TableGPT raggiunge una profonda comprensione dei dati tabulari e la capacità di eseguire operazioni complesse sulle tabelle attraverso istruzioni a catena di comando. È importante sottolineare che TableGPT offre il vantaggio di essere un sistema autonomo piuttosto che affidarsi a interfacce API esterne. Inoltre, supporta un flusso di elaborazione dei dati efficiente, il rifiuto delle query (quando appropriato) e la distribuzione privata, consentendo un fine-tuning più rapido dei dati di dominio e garantendo la privacy dei dati, il che migliora l'adattabilità del framework a casi d'uso specifici.
I LLM hanno dimostrato capacità straordinarie nell'interagire con gli esseri umani attraverso il linguaggio, in particolare grazie all'utilizzo di dati per il seguimento di istruzioni. I recenti progressi nei LLM, come MiniGPT-4, LLaVA e X-LLM, ampliano ulteriormente le loro capacità incorporando input multimodali, tra cui immagini, video e audio. Nonostante la loro efficacia nel generare una comprensione linguistica precisa e dettagliata del segnale modale fornito, questi LLM rinunciano alla capacità di ancorare parti specifiche degli input, costruendo così solo una mappatura a grana grossa. Tuttavia, una corrispondenza esplicita e informativa tra testo e altre modalità non solo migliorerebbe l'esperienza utente, ma aiuterebbe anche ad ampliare gli scenari applicativi dei LLM multimodali. Pertanto, proponiamo BuboGPT, un LLM multimodale con ancoraggio visivo in grado di eseguire un'interazione cross-modale tra visione, audio e linguaggio, fornendo una comprensione fine degli oggetti visivi e delle altre modalità date. Di conseguenza, BuboGPT è in grado di indicare la posizione specifica di un oggetto nell'immagine mentre genera una risposta o una descrizione per quell'oggetto. I nostri contributi sono duplici: 1) Un modulo di ancoraggio visivo pronto all'uso basato su SAM che estrae le entità in una frase e trova le maschere corrispondenti nell'immagine. 2) Uno schema di addestramento in due fasi e un dataset di istruzioni per conferire una comprensione congiunta di testo, immagini e audio. I nostri esperimenti dimostrano che BuboGPT raggiunge impressionanti capacità di comprensione multimodale e ancoraggio visivo durante l'interazione con l'uomo. Si comporta in modo costantemente efficace quando viene fornito con combinazioni arbitrarie di modalità (allineate o non allineate). Il nostro codice, modello e dataset sono disponibili su https://bubo-gpt.github.io.
I grandi modelli linguistici (LLM) acquisiscono la capacità di seguire istruzioni attraverso il fine-tuning su istruzioni (IFT) utilizzando dati supervisionati di istruzioni/risposte. Tuttavia, i dataset IFT ampiamente utilizzati (ad esempio, i 52k dati di Alpaca) contengono sorprendentemente molte istanze di bassa qualità con risposte errate o irrilevanti, che sono fuorvianti e dannose per l'IFT. In questo articolo, proponiamo una strategia semplice ed efficace per la selezione dei dati che identifica e rimuove automaticamente i dati di bassa qualità utilizzando un LLM potente (ad esempio, ChatGPT). A tal fine, introduciamo AlpaGasus, che viene sottoposto a fine-tuning su soli 9k dati di alta qualità filtrati dai 52k dati di Alpaca. AlpaGasus supera significativamente l'originale Alpaca, come valutato da GPT-4 su più set di test, e la sua variante da 13B raggiunge oltre il 90% delle prestazioni del suo LLM insegnante (cioè Text-Davinci-003) sui task di test. Offre anche un addestramento 5,7 volte più veloce, riducendo il tempo di addestramento per una variante da 7B da 80 minuti (per Alpaca) a 14 minuti. Applichiamo l'IFT per lo stesso numero di epoche di Alpaca(7B) ma su meno dati, utilizzando 4 GPU NVIDIA A100 (80GB) e seguendo le impostazioni e gli iperparametri originali di Alpaca. Nel complesso, AlpaGasus dimostra un nuovo paradigma IFT incentrato sui dati che può essere applicato in generale ai dati di fine-tuning su istruzioni, portando a un addestramento più veloce e a modelli migliori nel seguire le istruzioni. La nostra pagina del progetto è disponibile all'indirizzo: https://lichang-chen.github.io/AlpaGasus/.
I metodi per la previsione del movimento nei video stimano congiuntamente il movimento istantaneo di tutti i punti in un dato fotogramma utilizzando il flusso ottico oppure tracciano indipendentemente il movimento di singoli punti lungo l'intero video. Quest'ultimo approccio è valido anche per potenti metodi di deep learning in grado di tracciare punti attraverso occlusioni. Tracciare i punti individualmente ignora la forte correlazione che può esistere tra i punti, ad esempio perché appartengono allo stesso oggetto fisico, potenzialmente compromettendo le prestazioni. In questo articolo, proponiamo quindi CoTracker, un'architettura che traccia congiuntamente più punti lungo un intero video. Questa architettura combina diverse idee dalla letteratura sul flusso ottico e sul tracking in un design nuovo, flessibile e potente. Si basa su una rete transformer che modella la correlazione di diversi punti nel tempo tramite strati di attenzione specializzati. Il transformer aggiorna iterativamente una stima di diverse traiettorie. Può essere applicato in modalità sliding-window a video molto lunghi, per i quali abbiamo progettato un ciclo di training srotolato. Può tracciare da uno a più punti congiuntamente e supporta l'aggiunta di nuovi punti da tracciare in qualsiasi momento. Il risultato è un algoritmo di tracking flessibile e potente che supera i metodi all'avanguardia in quasi tutti i benchmark.
Mentre molti modelli di apprendimento non supervisionato si concentrano su una singola famiglia di compiti, sia generativi che discriminativi, esploriamo la possibilità di un apprendista di rappresentazione unificato: un modello che utilizza una singola fase di pre-addestramento per affrontare entrambe le famiglie di compiti simultaneamente. Identifichiamo i modelli di diffusione come un candidato ideale. I modelli di diffusione sono emersi come un metodo all'avanguardia per la generazione di immagini, la riduzione del rumore, l'inpainting, la super-risoluzione, la manipolazione, ecc. Tali modelli implicano l'addestramento di una U-Net per prevedere e rimuovere iterativamente il rumore, e il modello risultante può sintetizzare immagini ad alta fedeltà, diversificate e nuove. L'architettura U-Net, essendo basata su convoluzioni, genera un insieme diversificato di rappresentazioni di feature sotto forma di mappe di feature intermedie. Presentiamo le nostre scoperte che questi embedding sono utili oltre il compito di previsione del rumore, poiché contengono informazioni discriminative e possono anche essere sfruttati per la classificazione. Esploriamo metodi ottimali per estrarre e utilizzare questi embedding per compiti di classificazione, dimostrando risultati promettenti nel compito di classificazione ImageNet. Troviamo che con un'attenta selezione delle feature e pooling, i modelli di diffusione superano metodi generativo-discriminativi comparabili come BigBiGAN per i compiti di classificazione. Investigiamo i modelli di diffusione nel regime di trasferimento dell'apprendimento, esaminando le loro prestazioni su diversi dataset di classificazione visiva fine-grained. Confrontiamo questi embedding con quelli generati da architetture e pre-addestramenti concorrenti per i compiti di classificazione.
Presentiamo SEED, un elaborato tokenizzatore di immagini che conferisce ai Modelli Linguistici di Grande Scala (LLMs) la capacità emergente di VEDERE e DISEGNARE simultaneamente. La ricerca sui tokenizzatori di immagini aveva precedentemente raggiunto un punto di stallo, poiché i framework che impiegano token visivi quantizzati hanno perso rilevanza a causa di prestazioni e convergenza inferiori nella comprensione multimodale (rispetto a BLIP-2, ecc.) o nella generazione (rispetto a Stable Diffusion, ecc.). Nonostante queste limitazioni, rimaniamo fiduciosi nella sua capacità naturale di unificare rappresentazioni visive e testuali, facilitando un addestramento multimodale scalabile con la ricetta originale dei LLM. In questo studio, identifichiamo due principi cruciali per l'architettura e l'addestramento di SEED che facilitano efficacemente il successivo allineamento con i LLM. (1) I token di immagine dovrebbero essere indipendenti dalle posizioni fisiche 2D delle patch e invece essere prodotti con una dipendenza causale 1D, mostrando un'interdipendenza intrinseca che si allinea con il meccanismo di previsione autoregressiva da sinistra a destra nei LLM. (2) I token di immagine dovrebbero catturare semantiche di alto livello coerenti con il grado di astrazione semantica delle parole, ed essere ottimizzati sia per la discriminatività che per la ricostruzione durante la fase di addestramento del tokenizzatore. Di conseguenza, il LLM standard è in grado di eseguire sia la generazione da immagine a testo che da testo a immagine incorporando il nostro SEED attraverso un efficiente tuning LoRA. Un addestramento pregresso multimodale completo e il tuning delle istruzioni, che potrebbero produrre risultati migliori, sono riservati per future indagini. Questa versione di SEED è stata addestrata in 5,7 giorni utilizzando solo 64 GPU V100 e 5 milioni di coppie immagine-testo disponibili pubblicamente. Il nostro studio preliminare sottolinea il grande potenziale dei token visivi discreti nei LLM multimodali versatili e l'importanza di adeguati tokenizzatori di immagini in un contesto di ricerca più ampio.
Presentiamo Interactive Neural Video Editing (INVE), una soluzione di editing video in tempo reale che può assistere il processo di editing propagando in modo coerente le modifiche sparse dei fotogrammi all'intero clip video. Il nostro metodo è ispirato dal recente lavoro su Layered Neural Atlas (LNA). Tuttavia, LNA presenta due principali limitazioni: (1) il metodo è troppo lento per l'editing interattivo e (2) offre un supporto insufficiente per alcuni casi d'uso di editing, inclusa la modifica diretta dei fotogrammi e il tracciamento rigido delle texture. Per affrontare queste sfide, sfruttiamo e adottiamo architetture di rete altamente efficienti, alimentate dalla codifica hash-grid, per migliorare sostanzialmente la velocità di elaborazione. Inoltre, apprendiamo funzioni bidirezionali tra immagine-atlante e introduciamo l'editing vettoriale, che collettivamente consente una varietà molto maggiore di modifiche sia nell'atlante che direttamente nei fotogrammi. Rispetto a LNA, il nostro INVE riduce il tempo di apprendimento e inferenza di un fattore 5 e supporta varie operazioni di editing video che LNA non può gestire. Dimostriamo la superiorità di INVE rispetto a LNA nell'editing video interattivo attraverso un'analisi quantitativa e qualitativa completa, evidenziandone i numerosi vantaggi e le prestazioni migliorate. Per i risultati video, si prega di visitare https://gabriel-huang.github.io/inve/.
Il nostro obiettivo è indagare se l'apprendimento end-to-end del ragionamento visivo possa essere raggiunto con reti neurali a scopo generale, con l'aiuto di un pre-addestramento visivo. Un risultato positivo confuterebbe la convinzione comune che l'astrazione visiva esplicita (ad esempio, il rilevamento di oggetti) sia essenziale per la generalizzazione compositiva nel ragionamento visivo, e confermerebbe la fattibilità di una rete neurale "generalista" nel risolvere compiti di riconoscimento e ragionamento visivo. Proponiamo un framework semplice e generale di auto-supervisione che "comprime" ogni fotogramma video in un piccolo insieme di token tramite una rete transformer, e ricostruisce i fotogrammi rimanenti basandosi sul contesto temporale compresso. Per minimizzare la perdita di ricostruzione, la rete deve apprendere una rappresentazione compatta per ogni immagine, oltre a catturare la dinamica temporale e la permanenza degli oggetti dal contesto temporale. Eseguiamo la valutazione su due benchmark di ragionamento visivo, CATER e ACRE. Osserviamo che il pre-addestramento è essenziale per ottenere una generalizzazione compositiva nel ragionamento visivo end-to-end. Il nostro framework proposto supera ampiamente i tradizionali approcci di pre-addestramento supervisionato, inclusi la classificazione delle immagini e il rilevamento esplicito di oggetti.
La simulazione costituisce il fondamento dello sviluppo moderno dei veicoli autonomi. I simulatori aiutano a sviluppare, testare e migliorare i sistemi di guida senza mettere a rischio esseri umani, veicoli o il loro ambiente. Tuttavia, i simulatori affrontano una sfida significativa: dipendono da contenuti realistici, scalabili e al tempo stesso interessanti. Sebbene i recenti progressi nel rendering e nella ricostruzione delle scene abbiano compiuto grandi passi avanti nella creazione di asset di scene statiche, modellarne la disposizione, le dinamiche e i comportamenti rimane una sfida. In questo lavoro, ci rivolgiamo al linguaggio come fonte di supervisione per la generazione di scene di traffico dinamiche. Il nostro modello, LCTGen, combina un modello linguistico di grandi dimensioni con un'architettura decoder basata su transformer che seleziona posizioni probabili su una mappa da un dataset di mappe e produce una distribuzione iniziale del traffico, nonché le dinamiche di ciascun veicolo. LCTGen supera i lavori precedenti sia nella generazione incondizionata che condizionata di scene di traffico in termini di realismo e fedeltà. Codice e video saranno disponibili su https://ariostgx.github.io/lctgen.
Questo articolo presenta un nuovo Transformer per la visione, il Scale-Aware Modulation Transformer (SMT), in grado di gestire in modo efficiente varie attività downstream combinando la rete convoluzionale e il Transformer per la visione. La proposta Scale-Aware Modulation (SAM) nell'SMT include due principali design innovativi. In primo luogo, introduciamo il modulo Multi-Head Mixed Convolution (MHMC), che può catturare caratteristiche multi-scala e ampliare il campo ricettivo. In secondo luogo, proponiamo il modulo Scale-Aware Aggregation (SAA), leggero ma efficace, che consente la fusione di informazioni tra diverse teste. Sfruttando questi due moduli, la modulazione convoluzionale viene ulteriormente migliorata. Inoltre, a differenza dei lavori precedenti che utilizzavano modulazioni in tutte le fasi per costruire una rete priva di attenzione, proponiamo una rete ibrida evolutiva (EHN), che può simulare efficacemente il passaggio dalla cattura di dipendenze locali a quelle globali man mano che la rete diventa più profonda, ottenendo prestazioni superiori. Esperimenti estensivi dimostrano che l'SMT supera significativamente i modelli state-of-the-art esistenti in un'ampia gamma di compiti visivi. Nello specifico, l'SMT con 11.5M / 2.4GFLOPs e 32M / 7.7GFLOPs può raggiungere rispettivamente un'accuratezza top-1 dell'82.2% e dell'84.3% su ImageNet-1K. Dopo il pre-addestramento su ImageNet-22K con risoluzione 224^2, raggiunge un'accuratezza top-1 dell'87.1% e dell'88.1% quando viene fine-tuned con risoluzione 224^2 e 384^2, rispettivamente. Per il rilevamento di oggetti con Mask R-CNN, l'SMT base addestrato con schedule 1x e 3x supera la controparte Swin Transformer rispettivamente di 4.2 e 1.3 mAP su COCO. Per la segmentazione semantica con UPerNet, l'SMT base testato su scala singola e multi-scala supera Swin rispettivamente di 2.0 e 1.1 mIoU su ADE20K.