Articoli di ricerca IA selezionati quotidianamente con traduzioni
I transformer basati su self-attention (ViT) si sono affermati come un'architettura altamente competitiva nel campo della visione artificiale. A differenza delle reti neurali convoluzionali (CNN), i ViT sono in grado di condividere informazioni globali. Con lo sviluppo di varie strutture di ViT, questi ultimi stanno diventando sempre più vantaggiosi per molte attività di visione. Tuttavia, la complessità quadratica della self-attention rende i ViT computazionalmente intensivi, e la loro mancanza di bias induttivi di località e invarianza alla traduzione richiede dimensioni del modello più grandi rispetto alle CNN per apprendere efficacemente le caratteristiche visive. In questo articolo, proponiamo un modello leggero ed efficiente di vision transformer chiamato DualToken-ViT che sfrutta i vantaggi delle CNN e dei ViT. DualToken-ViT fonde efficacemente il token con informazioni locali ottenute da una struttura basata su convoluzione e il token con informazioni globali ottenute da una struttura basata su self-attention per realizzare una struttura di attenzione efficiente. Inoltre, utilizziamo token globali consapevoli della posizione in tutte le fasi per arricchire le informazioni globali, rafforzando ulteriormente l'effetto di DualToken-ViT. I token globali consapevoli della posizione contengono anche le informazioni sulla posizione dell'immagine, il che rende il nostro modello più adatto per le attività di visione. Abbiamo condotto ampi esperimenti su compiti di classificazione delle immagini, rilevamento di oggetti e segmentazione semantica per dimostrare l'efficacia di DualToken-ViT. Sul dataset ImageNet-1K, i nostri modelli di diverse scale raggiungono accuratezze del 75,4% e del 79,4% con soli 0,5G e 1,0G FLOPs, rispettivamente, e il nostro modello con 1,0G FLOPs supera LightViT-T che utilizza token globali dello 0,7%.
Il pre-addestramento su dati provenienti da Internet si è dimostrato un ingrediente chiave per ottenere una generalizzazione ampia in molti sistemi moderni di machine learning. Cosa sarebbe necessario per abilitare tali capacità nell'apprendimento per rinforzo (RL) robotico? I metodi di RL offline, che apprendono da dataset di esperienze robotiche, offrono un modo per sfruttare dati precedenti nel processo di apprendimento robotico. Tuttavia, questi metodi presentano un "disallineamento di tipo" con i dati video (come Ego4D), i più grandi dataset disponibili per la robotica, poiché i video offrono esperienze di sola osservazione senza le annotazioni di azione o ricompensa necessarie per i metodi RL. In questo articolo, sviluppiamo un sistema per sfruttare dataset video umani su larga scala nel RL offline robotico, basato interamente sull'apprendimento di funzioni di valore tramite l'apprendimento a differenza temporale. Dimostriamo che l'apprendimento di valore su dataset video acquisisce rappresentazioni più adatte al RL offline robotico rispetto ad altri approcci per l'apprendimento da dati video. Il nostro sistema, chiamato V-PTR, combina i vantaggi del pre-addestramento su dati video con approcci di RL offline robotico che si addestrano su dati robotici diversificati, ottenendo funzioni di valore e politiche per compiti di manipolazione che performano meglio, agiscono in modo robusto e generalizzano ampiamente. Su diversi compiti di manipolazione su un robot WidowX reale, il nostro framework produce politiche che migliorano significativamente rispetto ai metodi precedenti. Il nostro video e ulteriori dettagli sono disponibili all'indirizzo https://dibyaghosh.com/vptr/.
Presentiamo MosaicFusion, un approccio semplice ma efficace basato sulla diffusione per l'aumento dei dati nella segmentazione di istanze con vocabolario ampio. Il nostro metodo è privo di addestramento e non si affida a supervisione tramite etichette. Due design chiave ci permettono di utilizzare un modello di diffusione testo-immagine già disponibile come generatore di dataset utile per istanze di oggetti e annotazioni di maschere. In primo luogo, dividiamo una tela immagine in diverse regioni ed eseguiamo un singolo ciclo di processo di diffusione per generare più istanze contemporaneamente, condizionando su diversi prompt testuali. In secondo luogo, otteniamo le corrispondenti maschere delle istanze aggregando mappe di cross-attention associate ai prompt degli oggetti attraverso i livelli e i passaggi temporali di diffusione, seguiti da una semplice soglia e da un processo di raffinamento sensibile ai bordi. Senza fronzoli, il nostro MosaicFusion può produrre una quantità significativa di dati sintetici etichettati sia per categorie rare che nuove. I risultati sperimentali sui benchmark impegnativi LVIS a coda lunga e a vocabolario aperto dimostrano che MosaicFusion può migliorare significativamente le prestazioni dei modelli esistenti di segmentazione di istanze, specialmente per categorie rare e nuove. Il codice sarà rilasciato su https://github.com/Jiahao000/MosaicFusion.
La potatura delle reti neurali offre un metodo efficace per comprimere un modello multilingue di riconoscimento automatico del parlato (ASR) con una perdita di prestazioni minima. Tuttavia, richiede diverse iterazioni di potatura e ri-addestramento da eseguire per ciascuna lingua. In questo lavoro, proponiamo l'uso di un approccio di mascheramento adattivo in due scenari per potare in modo efficiente un modello ASR multilingue, ottenendo rispettivamente modelli monolingui sparsi o un modello multilingue sparso (denominato Dynamic ASR Pathways). Il nostro approccio adatta dinamicamente la sotto-rete, evitando decisioni premature su una struttura fissa della sotto-rete. Dimostriamo che il nostro approccio supera i metodi di potatura esistenti quando si punta a modelli monolingui sparsi. Inoltre, illustriamo che Dynamic ASR Pathways scopre e addestra congiuntamente sotto-reti (percorsi) migliori di un singolo modello multilingue adattandosi da diverse inizializzazioni della sotto-rete, riducendo così la necessità di potatura specifica per lingua.