Articoli di ricerca IA selezionati quotidianamente con traduzioni
Introduciamo Kosmos-2, un Modello Linguistico Multimodale di Grande Scala (MLLM), che abilita nuove capacità di percepire descrizioni di oggetti (ad esempio, bounding box) e di ancorare il testo al mondo visivo. Nello specifico, rappresentiamo le espressioni referenziali come collegamenti in Markdown, ovvero ``[span di testo](bounding box)'', dove le descrizioni degli oggetti sono sequenze di token di posizione. Insieme a corpora multimodali, costruiamo dati su larga scala di coppie immagine-testo ancorate (denominate GrIT) per addestrare il modello. Oltre alle capacità esistenti degli MLLM (ad esempio, percepire modalità generali, seguire istruzioni ed eseguire apprendimento in contesto), Kosmos-2 integra la capacità di ancoraggio in applicazioni downstream. Valutiamo Kosmos-2 su un'ampia gamma di compiti, tra cui (i) ancoraggio multimodale, come la comprensione di espressioni referenziali e l'ancoraggio di frasi, (ii) riferimento multimodale, come la generazione di espressioni referenziali, (iii) compiti di percezione-linguaggio e (iv) comprensione e generazione del linguaggio. Questo lavoro getta le basi per lo sviluppo dell'Intelligenza Artificiale Embodied e illumina la grande convergenza di linguaggio, percezione multimodale, azione e modellazione del mondo, che rappresenta un passo cruciale verso l'intelligenza artificiale generale. Dati, demo e modelli pre-addestrati sono disponibili all'indirizzo https://aka.ms/kosmos-2.
Sebbene il progresso dei modelli linguistici pre-addestrati di grandi dimensioni continui a evolversi, l'esplorazione della creazione di un modello unificato per il linguaggio e altri dati multimodali, come il movimento, rimane una sfida e un territorio inesplorato fino ad oggi. Fortunatamente, il movimento umano mostra un accoppiamento semantico simile al linguaggio umano, spesso percepito come una forma di linguaggio del corpo. Integrando i dati linguistici con modelli di movimento su larga scala, diventa fattibile un pre-addestramento movimento-linguaggio che può migliorare le prestazioni nei compiti legati al movimento. Spinti da questa intuizione, proponiamo MotionGPT, un modello unificato, versatile e user-friendly per gestire molteplici compiti relativi al movimento. Nello specifico, utilizziamo la quantizzazione vettoriale discreta per il movimento umano e trasformiamo il movimento 3D in token di movimento, simili al processo di generazione dei token di parole. Basandoci su questo "vocabolario del movimento", eseguiamo la modellazione linguistica sia sul movimento che sul testo in modo unificato, trattando il movimento umano come un linguaggio specifico. Inoltre, ispirati dall'apprendimento basato su prompt, pre-addestriamo MotionGPT con una miscela di dati movimento-linguaggio e lo perfezioniamo su compiti di domanda e risposta basati su prompt. Esperimenti estensivi dimostrano che MotionGPT raggiunge prestazioni all'avanguardia in molteplici compiti di movimento, tra cui la generazione di movimento guidata da testo, la descrizione del movimento, la previsione del movimento e l'interpolazione del movimento.
La modifica precisa e controllabile delle immagini è un compito impegnativo che ha attirato una significativa attenzione. Recentemente, DragGAN ha introdotto un framework interattivo di modifica delle immagini basato su punti, ottenendo risultati impressionanti con precisione a livello di pixel. Tuttavia, poiché questo metodo si basa su reti generative avversarie (GAN), la sua generalità è limitata dalla capacità dei modelli GAN pre-addestrati. In questo lavoro, estendiamo tale framework di modifica ai modelli di diffusione e proponiamo DragDiffusion. Sfruttando modelli di diffusione pre-addestrati su larga scala, miglioriamo notevolmente l'applicabilità della modifica interattiva basata su punti in scenari reali. Mentre la maggior parte dei metodi esistenti di modifica delle immagini basati su diffusione lavora sugli embedding testuali, DragDiffusion ottimizza il latente di diffusione per ottenere un controllo spaziale preciso. Sebbene i modelli di diffusione generino immagini in modo iterativo, dimostriamo empiricamente che l'ottimizzazione del latente di diffusione in un singolo passaggio è sufficiente per generare risultati coerenti, consentendo a DragDiffusion di completare modifiche di alta qualità in modo efficiente. Esperimenti estesi su un'ampia gamma di casi complessi (ad esempio, multi-oggetti, diverse categorie di oggetti, vari stili, ecc.) dimostrano la versatilità e la generalità di DragDiffusion.
Il Segment Anything Model (SAM) è un modello di visione di base guidato da prompt per il ritaglio dell'oggetto di interesse dal suo sfondo. Da quando il team di ricerca di Meta ha rilasciato il progetto SA, SAM ha attirato una significativa attenzione grazie alle sue impressionanti prestazioni di trasferimento zero-shot e alla sua elevata versatilità, essendo compatibile con altri modelli per applicazioni avanzate di visione come l'editing di immagini con un controllo fine. Molti di questi casi d'uso devono essere eseguiti su dispositivi edge con risorse limitate, come le app mobili. In questo lavoro, miriamo a rendere SAM adatto ai dispositivi mobili sostituendo il pesante encoder di immagini con uno leggero. Un approccio ingenuo per addestrare un nuovo SAM, come descritto nel documento originale di SAM, porta a prestazioni insoddisfacenti, specialmente quando sono disponibili risorse di addestramento limitate. Troviamo che ciò sia principalmente causato dall'ottimizzazione accoppiata dell'encoder di immagini e del decoder di maschere, motivo per cui proponiamo la distillazione disaccoppiata. Nello specifico, distilliamo la conoscenza dall'encoder di immagini ViT-H nel SAM originale in un encoder di immagini leggero, che può essere automaticamente compatibile con il decoder di maschere nel SAM originale. L'addestramento può essere completato su una singola GPU in meno di un giorno, e il risultante SAM leggero è denominato MobileSAM, che è più di 60 volte più piccolo ma performa alla pari con il SAM originale. Per quanto riguarda la velocità di inferenza, MobileSAM impiega circa 10ms per immagine: 8ms sull'encoder di immagini e 2ms sul decoder di maschere. Con prestazioni superiori e una maggiore versatilità, il nostro MobileSAM è 7 volte più piccolo e 4 volte più veloce del contemporaneo FastSAM, rendendolo più adatto per applicazioni mobili. Il codice per il progetto MobileSAM è disponibile all'indirizzo https://github.com/ChaoningZhang/MobileSAM.
I Large Language Model (LLM), nonostante i loro recenti e impressionanti risultati, sono notoriamente costosi da implementare, specialmente per applicazioni che coinvolgono la generazione di contenuti lunghi, come i sistemi di dialogo e la scrittura di storie. Spesso, una grande quantità di informazioni di stato transitorio, denominate KV cache, viene memorizzata nella memoria GPU insieme ai parametri del modello, scalando linearmente con la lunghezza della sequenza e la dimensione del batch. In questo articolo, introduciamo un approccio innovativo per implementare la KV cache che ne riduce significativamente l'impronta di memoria. Il nostro approccio si basa sull'osservazione degna di nota che una piccola porzione di token contribuisce maggiormente al valore durante il calcolo dei punteggi di attenzione. Chiamiamo questi token Heavy Hitters (H_2). Attraverso un'indagine approfondita, scopriamo che (i) l'emergere degli H_2 è naturale e fortemente correlato alla frequente co-occorrenza di token nel testo, e (ii) la loro rimozione comporta un significativo degrado delle prestazioni. Sulla base di queste intuizioni, proponiamo Heavy Hitter Oracle (H_2O), una politica di espulsione della KV cache che mantiene dinamicamente un equilibrio tra token recenti e H_2. Formuliamo l'espulsione della KV cache come un problema di submodularità dinamica e dimostriamo (sotto ipotesi moderate) una garanzia teorica per il nostro nuovo algoritmo di espulsione, che potrebbe aiutare a guidare lavori futuri. Validiamo l'accuratezza del nostro algoritmo con OPT, LLaMA e GPT-NeoX su un'ampia gamma di task. La nostra implementazione di H_2O con il 20% di heavy hitters migliora la velocità di elaborazione rispetto a tre principali sistemi di inferenza, DeepSpeed Zero-Inference, Hugging Face Accelerate e FlexGen, fino a 29 volte, 29 volte e 3 volte su OPT-6.7B e OPT-30B. Con la stessa dimensione del batch, H2O può ridurre la latenza fino a 1.9 volte. Il codice è disponibile all'indirizzo https://github.com/FMInference/H2O.
Le tendenze attuali per il pre-addestramento di modelli linguistici di grandi dimensioni (LLM) capaci si concentrano principalmente sul ridimensionamento delle dimensioni del modello e del dataset. Tuttavia, la qualità dei dati di pre-addestramento è un fattore importante per l'addestramento di LLM potenti, ma rimane un concetto nebuloso che non è stato completamente caratterizzato. Pertanto, utilizziamo il coefficiente di diversità Task2Vec, recentemente proposto, per fondare e comprendere gli aspetti formali della qualità dei dati, andando oltre la semplice scala. In particolare, misuriamo il coefficiente di diversità dei dataset di pre-addestramento disponibili pubblicamente per dimostrare che la loro diversità formale è elevata rispetto ai limiti teorici inferiori e superiori. Inoltre, per rafforzare la fiducia nel coefficiente di diversità, conduciamo esperimenti di interpretabilità e scopriamo che il coefficiente è in linea con le proprietà intuitive della diversità, ad esempio, aumenta all'aumentare del numero di concetti latenti. Concludiamo che il coefficiente di diversità è affidabile, dimostriamo che è elevato per i dataset LLM disponibili pubblicamente e ipotizziamo che possa essere utilizzato per costruire dataset utili e diversificati per i LLM.
Un concetto centrale nell'apprendimento automatico sia pratico che teorico è quello di un classificatore debole (weak learner), ovvero classificatori che raggiungono prestazioni migliori del caso (su qualsiasi distribuzione di dati), anche di un piccolo margine. Tali classificatori deboli costituiscono la base pratica per metodi canonici di apprendimento automatico come il boosting. In questo lavoro, dimostriamo che i modelli linguistici di grandi dimensioni (LLM) basati su prompt possono operare efficacemente come tali classificatori deboli. Nello specifico, illustriamo l'uso di un LLM come classificatore debole in un algoritmo di boosting applicato a dati tabellari. Mostriamo che, fornendo descrizioni testuali (campionate correttamente secondo la distribuzione di interesse) dei campioni di dati tabellari, gli LLM possono produrre un riassunto dei campioni che funge da modello per la classificazione e raggiunge l'obiettivo di agire come classificatore debole in questo compito. Integriamo questi modelli in un approccio di boosting, che in alcuni contesti può sfruttare la conoscenza all'interno dell'LLM per superare il boosting tradizionale basato su alberi. Il modello supera sia l'apprendimento con pochi esempi (few-shot learning) e, occasionalmente, anche procedure di fine-tuning più complesse, in particolare per compiti che coinvolgono un numero ridotto di punti dati. I risultati dimostrano il potenziale degli LLM basati su prompt di funzionare non solo come apprenditori con pochi esempi, ma come componenti di pipeline di apprendimento automatico più ampie.
I grandi modelli transformer addestrati su dataset diversificati hanno dimostrato una notevole capacità di apprendimento in-context, raggiungendo elevate prestazioni few-shot su compiti per i quali non erano stati esplicitamente addestrati. In questo articolo, studiamo le capacità di apprendimento in-context dei transformer nei problemi di decision-making, ovvero nel reinforcement learning (RL) per banditi e processi decisionali di Markov. A tal fine, introduciamo e analizziamo il Decision-Pretrained Transformer (DPT), un metodo di preaddestramento supervisionato in cui il transformer predice un'azione ottimale data una query di stato e un dataset in-context di interazioni, su un insieme diversificato di compiti. Questa procedura, sebbene semplice, produce un modello con diverse capacità sorprendenti. Troviamo che il transformer preaddestrato può essere utilizzato per risolvere una gamma di problemi RL in-context, mostrando sia esplorazione online che conservatorismo offline, nonostante non sia stato esplicitamente addestrato per farlo. Il modello generalizza inoltre oltre la distribuzione di preaddestramento a nuovi compiti e adatta automaticamente le sue strategie decisionali a strutture sconosciute. Teoricamente, dimostriamo che il DPT può essere visto come un'implementazione efficiente del campionamento bayesiano a posteriori, un algoritmo RL provabilmente efficiente in termini di campioni. Sfruttiamo ulteriormente questa connessione per fornire garanzie sul regret dell'algoritmo in-context prodotto dal DPT e dimostriamo che può apprendere più velocemente degli algoritmi utilizzati per generare i dati di preaddestramento. Questi risultati suggeriscono un percorso promettente e semplice per instillare forti capacità decisionali in-context nei transformer.
I dataset su larga scala sono essenziali per il deep learning moderno. I sostenitori sostengono che la comprensione di questi metodi richieda trasparenza nei dataset (ad esempio, "curatela del dataset, motivazione, composizione, processo di raccolta, ecc..."). Tuttavia, quasi nessuno ha suggerito il rilascio delle definizioni dettagliate e degli esempi visivi delle categorie forniti agli annotatori - informazioni cruciali per comprendere la struttura delle annotazioni presenti in ciascun dataset. Queste etichette sono al centro dei dataset pubblici, eppure pochi dataset includono le istruzioni utilizzate per generarle. Introduciamo un nuovo compito, la Generazione di Istruzioni di Etichettatura, per affrontare la mancanza di istruzioni di etichettatura pubblicamente disponibili. Nella Generazione di Istruzioni di Etichettatura, prendiamo un dataset ragionevolmente annotato e: 1) generiamo un insieme di esempi che siano visivamente rappresentativi di ciascuna categoria nel dataset; 2) forniamo un'etichetta testuale che corrisponda a ciascuno degli esempi. Introduciamo un framework che non richiede addestramento di modelli per risolvere questo compito e include un sistema di recupero rapido appositamente creato che sfrutta un grande modello pre-addestrato di visione e linguaggio. Questo framework funge da proxy per gli annotatori umani e può aiutare sia a generare un insieme finale di istruzioni di etichettatura sia a valutarne la qualità. Il nostro framework genera molteplici rappresentazioni visive e testuali diverse delle categorie del dataset. L'insieme di istruzioni ottimizzato supera la nostra baseline più forte di 7.06 mAP per NuImages e 12.9 mAP per COCO su 5 fold.
I modelli pre-addestrati per scopi generali ("modelli di base") hanno permesso ai professionisti di produrre soluzioni generalizzabili per singoli problemi di apprendimento automatico con dataset significativamente più piccoli di quelli necessari per l'apprendimento da zero. Tali modelli sono tipicamente addestrati su dataset ampi e diversificati con supervisione debole, consumando molta più dati di addestramento rispetto a quelli disponibili per qualsiasi singola applicazione downstream. In questo articolo, descriviamo il Visual Navigation Transformer (ViNT), un modello di base che mira a portare il successo dei modelli pre-addestrati per scopi generali alla navigazione robotica basata sulla visione. ViNT è addestrato con un obiettivo generale di raggiungimento di un obiettivo che può essere utilizzato con qualsiasi dataset di navigazione, e impiega un'architettura flessibile basata su Transformer per apprendere affordance navigazionali e consentire un adattamento efficiente a una varietà di task navigazionali downstream. ViNT è addestrato su numerosi dataset di navigazione esistenti, comprendenti centinaia di ore di navigazione robotica da una varietà di piattaforme robotiche diverse, e mostra un trasferimento positivo, superando modelli specializzati addestrati su singoli dataset. ViNT può essere potenziato con proposte di sotto-obiettivi basate su diffusione per esplorare ambienti nuovi, e può risolvere problemi di navigazione su scala chilometrica quando è dotato di euristiche a lungo raggio. ViNT può anche essere adattato a nuove specifiche di task con una tecnica ispirata al prompt-tuning, dove l'encoder dell'obiettivo è sostituito da una codifica di un'altra modalità di task (ad esempio, waypoint GPS o comandi di routing) incorporata nello stesso spazio di token di obiettivo. Questa flessibilità e capacità di adattarsi a una varietà di domini di problemi downstream stabilisce ViNT come un efficace modello di base per la robotica mobile. Per video, codice e checkpoint del modello, consulta la nostra pagina del progetto all'indirizzo https://visualnav-transformer.github.io.
Gli esseri umani eccellono in complessi compiti di manipolazione a lungo termine di corpi molli attraverso l'uso flessibile di strumenti: la preparazione del pane richiede un coltello per tagliare l'impasto e un mattarello per appiattirlo. Spesso considerato un segno distintivo della cognizione umana, l'uso di strumenti nei robot autonomi rimane limitato a causa delle difficoltà nella comprensione delle interazioni strumento-oggetto. Qui sviluppiamo un sistema robotico intelligente, RoboCook, che percepisce, modella e manipola oggetti elasto-plastici con vari strumenti. RoboCook utilizza rappresentazioni della scena basate su nuvole di punti, modella le interazioni strumento-oggetto con Reti Neurali a Grafo (GNN) e combina la classificazione degli strumenti con l'apprendimento di politiche auto-supervisionato per ideare piani di manipolazione. Dimostriamo che, partendo da soli 20 minuti di dati di interazione nel mondo reale per strumento, un braccio robotico generico può apprendere complessi compiti di manipolazione a lungo termine di oggetti molli, come la preparazione di gnocchi e biscotti a forma di lettere dell'alfabeto. Valutazioni estensive mostrano che RoboCook supera significativamente gli approcci all'avanguardia, dimostra robustezza contro gravi disturbi esterni e mostra adattabilità a diversi materiali.
I modelli probabilistici di diffusione con denoising (DDPM) si sono dimostrati in grado di sintetizzare immagini di alta qualità con una notevole diversità quando addestrati su grandi quantità di dati. I tipici modelli di diffusione e i moderni modelli generativi condizionati su larga scala, come i modelli generativi testo-immagine, sono vulnerabili all'overfitting quando vengono ottimizzati su dati estremamente limitati. Alcuni lavori esistenti hanno esplorato la generazione guidata da soggetti utilizzando un set di riferimento contenente poche immagini. Tuttavia, pochi studi precedenti hanno esplorato la generazione guidata da dominio basata su DDPM, che mira a apprendere le caratteristiche comuni dei domini target mantenendo la diversità. Questo articolo propone un nuovo approccio chiamato DomainStudio per adattare i DDPM pre-addestrati su grandi dataset sorgente a domini target utilizzando dati limitati. È progettato per mantenere la diversità dei soggetti forniti dai domini sorgente e ottenere campioni adattati di alta qualità e diversificati nei domini target. Proponiamo di mantenere le distanze relative tra i campioni adattati per ottenere una considerevole diversità nella generazione. Inoltre, miglioriamo ulteriormente l'apprendimento dei dettagli ad alta frequenza per una migliore qualità della generazione. Il nostro approccio è compatibile sia con i modelli di diffusione non condizionati che con quelli condizionati. Questo lavoro rappresenta il primo tentativo di realizzare la generazione di immagini few-shot non condizionata con modelli di diffusione, ottenendo una qualità migliore e una maggiore diversità rispetto agli approcci basati su GAN attualmente all'avanguardia. Inoltre, questo lavoro allevia significativamente l'overfitting per la generazione condizionata e realizza una generazione guidata da dominio di alta qualità, ampliando ulteriormente gli scenari applicabili dei moderni modelli testo-immagine su larga scala.
I modelli di diffusione testo-immagine su larga scala hanno migliorato significativamente lo stato dell'arte nella modellazione generativa di immagini, offrendo un'interfaccia utente intuitiva e potente per guidare il processo di generazione delle immagini. Esprimere vincoli spaziali, ad esempio per posizionare oggetti specifici in determinate posizioni, risulta complesso utilizzando il testo; inoltre, gli attuali modelli di generazione di immagini basati su testo non sono in grado di seguire con precisione tali istruzioni. In questo articolo consideriamo la generazione di immagini a partire da testo associato a segmenti sulla tela dell'immagine, che combina un'interfaccia in linguaggio naturale intuitiva con un controllo spaziale preciso sul contenuto generato. Proponiamo ZestGuide, un approccio di guida alla segmentazione zero-shot che può essere integrato in modelli di diffusione testo-immagine pre-addestrati, senza richiedere ulteriore training. Questo metodo sfrutta mappe di segmentazione implicite che possono essere estratte dai livelli di cross-attention, utilizzandole per allineare la generazione con le maschere di input. I nostri risultati sperimentali combinano un'elevata qualità dell'immagine con un allineamento accurato del contenuto generato rispetto alle segmentazioni di input, migliorando rispetto ai lavori precedenti sia quantitativamente che qualitativamente, inclusi i metodi che richiedono il training su immagini con segmentazioni corrispondenti. Rispetto a Paint with Words, il precedente stato dell'arte nella generazione di immagini con condizionamento zero-shot sulla segmentazione, otteniamo un miglioramento di 5-10 punti mIoU sul dataset COCO con punteggi FID simili.
Nonostante i progressi promettenti nei compiti multimodali, gli attuali modelli multimodali di grandi dimensioni (LMM) tendono a generare descrizioni inconsistenti rispetto all'immagine associata e alle istruzioni umane. Questo articolo affronta il problema introducendo il primo dataset ampio e diversificato per il tuning delle istruzioni visive, denominato Large-scale Robust Visual (LRV)-Instruction. Il nostro dataset è composto da 120k istruzioni visive generate da GPT4, che coprono 16 compiti di visione e linguaggio con istruzioni e risposte aperte. A differenza degli studi esistenti che si concentrano principalmente su campioni di istruzioni positive, progettiamo LRV-Instruction per includere sia istruzioni positive che negative per un tuning delle istruzioni visive più robusto. Le nostre istruzioni negative sono progettate a due livelli semantici: (i) Manipolazione di Elementi Inesistenti e (ii) Manipolazione di Elementi Esistenti. Per misurare efficacemente l'allucinazione generata dagli LMM, proponiamo GPT4-Assisted Visual Instruction Evaluation (GAVIE), un nuovo approccio per valutare il tuning delle istruzioni visive senza la necessità di risposte annotate manualmente e che può adattarsi a diversi formati di istruzione. Condividiamo esperimenti completi per investigare l'allucinazione degli LMM. I nostri risultati dimostrano che gli LMM esistenti mostrano un'allucinazione significativa quando presentati con le nostre istruzioni negative, in particolare con le istruzioni di Manipolazione di Elementi Esistenti. Inoltre, ottimizzando MiniGPT4 su LRV-Instruction, siamo riusciti a mitigare l'allucinazione migliorando le prestazioni su dataset pubblici utilizzando meno dati di addestramento rispetto ai metodi all'avanguardia. Inoltre, abbiamo osservato che un rapporto bilanciato di istanze positive e negative nei dati di addestramento porta a un modello più robusto. Il link del nostro progetto è disponibile all'indirizzo https://fuxiaoliu.github.io/LRV/.
I processi generativi che coinvolgono la risoluzione di equazioni differenziali, come i modelli di diffusione, richiedono spesso un bilanciamento tra velocità e qualità. I campionatori basati su ODE sono veloci ma raggiungono un plateau nelle prestazioni, mentre i campionatori basati su SDE offrono una qualità del campionamento superiore al costo di un tempo di campionamento maggiore. Attribuiamo questa differenza agli errori di campionamento: i campionatori ODE comportano errori di discretizzazione più piccoli, mentre la stocasticità nelle SDE contrae gli errori accumulati. Sulla base di queste osservazioni, proponiamo un nuovo algoritmo di campionamento chiamato Restart per bilanciare meglio gli errori di discretizzazione e la contrazione. Il metodo di campionamento alterna l'aggiunta di rumore significativo in passi aggiuntivi in avanti e il seguire rigorosamente un'ODE all'indietro. Empiricamente, il campionatore Restart supera i precedenti campionatori SDE e ODE sia in velocità che in accuratezza. Restart non solo supera i migliori risultati SDE precedenti, ma accelera anche la velocità di campionamento di 10 volte / 2 volte su CIFAR-10 / ImageNet 64x64. Inoltre, ottiene una qualità del campionamento significativamente migliore rispetto ai campionatori ODE entro tempi di campionamento comparabili. Inoltre, Restart bilancia meglio l'allineamento testo-immagine/qualità visiva rispetto alla diversità rispetto ai precedenti campionatori nel modello di diffusione stabile su larga scala da testo a immagine pre-addestrato su LAION 512x512. Il codice è disponibile all'indirizzo https://github.com/Newbeeer/diffusion_restart_sampling.
I modelli Transformer hanno dimostrato un grande potenziale nel campo della visione artificiale, seguendo il loro successo nei compiti linguistici. Swin Transformer è uno di questi, superando le architetture basate su convoluzioni in termini di accuratezza, migliorando al contempo l'efficienza rispetto a Vision Transformer (ViT) e alle sue varianti, che presentano una complessità quadratica rispetto alla dimensione dell'input. Swin Transformer utilizza finestre mobili che consentono connessioni tra finestre limitando il calcolo dell'auto-attenzione a finestre locali non sovrapposte. Tuttavia, le finestre mobili introducono operazioni di copia della memoria, che rappresentano una parte significativa del tempo di esecuzione. Per mitigare questo problema, proponiamo Swin-Free, in cui applichiamo finestre di dimensioni variabili tra le fasi, anziché finestre mobili, per ottenere connessioni incrociate tra finestre locali. Con questo semplice cambiamento di progettazione, Swin-Free è più veloce di Swin Transformer durante l'inferenza, con una migliore accuratezza. Inoltre, proponiamo anche alcune varianti di Swin-Free che sono più veloci rispetto alle loro controparti Swin Transformer.
Per la manipolazione di oggetti 3D, i metodi che costruiscono una rappresentazione 3D esplicita ottengono risultati migliori rispetto a quelli che si basano esclusivamente su immagini della telecamera. Tuttavia, l'uso di rappresentazioni 3D esplicite come i voxel comporta un elevato costo computazionale, influenzando negativamente la scalabilità. In questo lavoro, proponiamo RVT, un trasformatore multi-vista per la manipolazione 3D che è sia scalabile che accurato. Alcune caratteristiche chiave di RVT sono un meccanismo di attenzione per aggregare le informazioni tra le diverse viste e il re-rendering dell'input della telecamera da viste virtuali intorno allo spazio di lavoro del robot. Nelle simulazioni, abbiamo riscontrato che un singolo modello RVT funziona bene su 18 task di RLBench con 249 variazioni di task, raggiungendo un successo relativo del 26% superiore rispetto al metodo all'avanguardia esistente (PerAct). Inoltre, RVT si allena 36 volte più velocemente di PerAct per ottenere le stesse prestazioni e raggiunge una velocità di inferenza 2,3 volte superiore rispetto a PerAct. Inoltre, RVT è in grado di eseguire una varietà di task di manipolazione nel mondo reale con solo poche dimostrazioni (sim10) per task. Risultati visivi, codice e modello addestrato sono disponibili all'indirizzo https://robotic-view-transformer.github.io/.
La previsione probabilistica è cruciale per il processo decisionale in condizioni di incertezza riguardo al meteo futuro. L'approccio predominante consiste nell'utilizzare un insieme di previsioni per rappresentare e quantificare l'incertezza nella previsione numerica operativa del tempo. Tuttavia, la generazione di questi insiemi è computazionalmente costosa. In questo articolo, proponiamo di generare previsioni d'insieme su larga scala sfruttando i recenti progressi nell'intelligenza artificiale generativa. Il nostro approccio apprende un modello probabilistico basato sui dati, utilizzando il dataset di riprevisione a 5 membri del GEFS. Il modello può quindi essere campionato in modo efficiente per produrre previsioni meteorologiche realistiche, condizionate su pochi membri del sistema operativo di previsione GEFS. Gli insiemi generati mostrano una capacità predittiva simile a quella del completo insieme a 31 membri del GEFS, valutata rispetto alla rianalisi ERA5, e riproducono bene le statistiche degli insiemi fisicamente basati su larga scala. Applichiamo inoltre la stessa metodologia per sviluppare un modello di diffusione per la post-elaborazione generativa: il modello apprende direttamente a correggere i bias presenti nel sistema di previsione emulato, sfruttando i dati di rianalisi come etichette durante l'addestramento. Gli insiemi generati da questo modello di post-elaborazione mostrano una maggiore affidabilità e accuratezza, in particolare nella classificazione degli eventi estremi. In generale, sono più affidabili e prevedono con maggiore precisione la probabilità di eventi meteorologici estremi rispetto all'insieme operativo del GEFS. I nostri modelli raggiungono questi risultati con un costo computazionale inferiore a 1/10 rispetto a quello del sistema operativo GEFS.