Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'ascesa dei grandi modelli linguistici (LLM) e del tuning su istruzioni ha portato all'attuale tendenza dei grandi modelli linguistici e visivi sintonizzati su istruzioni (LLVM). Questa tendenza implica la meticolosa cura di numerosi dataset di tuning su istruzioni specificamente progettati per obiettivi particolari o l'ampliamento degli LLVM per gestire grandi quantità di dati visivo-linguistici (VL). Tuttavia, gli attuali LLVM hanno trascurato la comprensione dettagliata e completa delle scene del mondo reale disponibile dai modelli specializzati di visione artificiale (CV) in compiti di percezione visiva come la segmentazione, il rilevamento, la generazione di grafi di scene (SGG) e il riconoscimento ottico dei caratteri (OCR). Invece, gli LLVM esistenti si basano principalmente sulla grande capacità e sulle capacità emergenti dei loro backbone LLM. Pertanto, presentiamo un nuovo LLVM, Mixture of All Intelligence (MoAI), che sfrutta le informazioni visive ausiliarie ottenute dagli output di modelli esterni di segmentazione, rilevamento, SGG e OCR. MoAI opera attraverso due nuovi moduli introdotti: MoAI-Compressor e MoAI-Mixer. Dopo aver verbalizzato gli output dei modelli CV esterni, il MoAI-Compressor li allinea e li condensa per utilizzare in modo efficiente le informazioni visive ausiliarie rilevanti per i compiti VL. MoAI-Mixer combina quindi tre tipi di intelligenza: (1) caratteristiche visive, (2) caratteristiche ausiliarie dai modelli CV esterni e (3) caratteristiche linguistiche, utilizzando il concetto di Mixture of Experts. Attraverso questa integrazione, MoAI supera significativamente sia gli LLVM open-source che quelli closed-source in numerosi compiti VL zero-shot, in particolare quelli relativi alla comprensione delle scene del mondo reale come l'esistenza degli oggetti, le posizioni, le relazioni e l'OCR, senza ampliare le dimensioni del modello o curare ulteriori dataset di tuning su istruzioni visive.
Presentiamo Chronos, un framework semplice ma efficace per modelli probabilistici pre-addestrati su serie temporali. Chronos tokenizza i valori delle serie temporali utilizzando scalatura e quantizzazione in un vocabolario fisso e addestra architetture di modelli linguistici basati su transformer su queste serie temporali tokenizzate tramite la funzione di perdita di entropia incrociata. Abbiamo pre-addestrato i modelli Chronos basati sulla famiglia T5 (con un numero di parametri compreso tra 20M e 710M) su un'ampia raccolta di dataset pubblicamente disponibili, integrati da un dataset sintetico che abbiamo generato tramite processi gaussiani per migliorare la generalizzazione. In un benchmark completo composto da 42 dataset, che include sia modelli locali classici che metodi di deep learning, dimostriamo che i modelli Chronos: (a) superano significativamente altri metodi sui dataset che facevano parte del corpus di addestramento; e (b) hanno prestazioni zero-shot comparabili e occasionalmente superiori su nuovi dataset, rispetto a metodi che sono stati addestrati specificamente su di essi. I nostri risultati dimostrano che i modelli Chronos possono sfruttare dati di serie temporali provenienti da domini diversi per migliorare l'accuratezza zero-shot su task di previsione non visti, posizionando i modelli pre-addestrati come uno strumento valido per semplificare notevolmente le pipeline di previsione.
Investighiamo metodi efficienti per addestrare Modelli Linguistici di Grande Scala (LLMs) affinché acquisiscano competenze in molteplici domini specializzati, come la programmazione, il ragionamento matematico e la conoscenza generale. Il nostro metodo, denominato Branch-Train-MiX (BTX), parte da un modello iniziale, che viene suddiviso per addestrare esperti in modo parallelizzabile con elevata produttività e ridotti costi di comunicazione. Dopo che i singoli esperti sono stati addestrati in modo asincrono, BTX combina i loro parametri feedforward come esperti in strati Mixture-of-Expert (MoE) e media i parametri rimanenti, seguito da una fase di fine-tuning MoE per apprendere il routing a livello di token. BTX generalizza due casi particolari: il metodo Branch-Train-Merge, che non prevede la fase di fine-tuning MoE per apprendere il routing, e lo sparse upcycling, che omette la fase di addestramento asincrono degli esperti. Rispetto ad approcci alternativi, BTX raggiunge il miglior compromesso tra accuratezza ed efficienza.
La creazione di dataset di immagini-didascalie di alta qualità etichettati manualmente rappresenta un collo di bottiglia significativo nello sviluppo di modelli visivo-linguistici (VLM). Proponiamo un approccio innovativo che sfrutta i punti di forza dei modelli linguistici di grandi dimensioni (LLM) e dei modelli di generazione di immagini per creare coppie immagine-testo sintetiche, consentendo un addestramento efficiente ed efficace dei VLM. Il nostro metodo prevede il pre-addestramento di un modello testo-immagine per sintetizzare embedding di immagini a partire da didascalie generate da un LLM. Queste coppie sintetiche vengono poi utilizzate per addestrare un VLM. Esperimenti estensivi dimostrano che il VLM addestrato con dati sintetici mostra prestazioni comparabili nel compito di generazione di didascalie, pur richiedendo una frazione dei dati utilizzati da modelli addestrati esclusivamente su dati annotati manualmente. In particolare, superiamo il baseline del 17% attraverso l'aumento con un dataset sintetico. Inoltre, mostriamo che la sintesi nello spazio degli embedding di immagini è il 25% più veloce rispetto a quella nello spazio dei pixel. Questa ricerca introduce una tecnica promettente per generare dataset di immagini su larga scala e personalizzabili, portando a prestazioni migliorate dei VLM e a una maggiore applicabilità in vari domini, tutto con un'efficienza e un utilizzo delle risorse ottimizzati.
La generazione del movimento umano rappresenta un obiettivo significativo nella visione artificiale generativa, mentre il raggiungimento di una generazione di movimento efficiente e a lunga sequenza rimane una sfida. I recenti progressi nei modelli a spazio di stati (SSM), in particolare Mamba, hanno dimostrato un notevole potenziale nella modellazione di sequenze lunghe con un design efficiente e consapevole dell'hardware, che sembra essere una direzione promettente su cui costruire un modello di generazione del movimento. Tuttavia, l'adattamento degli SSM alla generazione del movimento incontra ostacoli a causa della mancanza di un'architettura di design specializzata per modellare sequenze di movimento. Per affrontare queste sfide, proponiamo Motion Mamba, un approccio semplice ed efficiente che presenta il primo modello di generazione del movimento basato su SSM. Nello specifico, progettiamo un blocco Hierarchical Temporal Mamba (HTM) per elaborare dati temporali mediante l'assemblaggio di un numero variabile di moduli SSM isolati all'interno di un'architettura U-Net simmetrica, mirata a preservare la coerenza del movimento tra i fotogrammi. Progettiamo inoltre un blocco Bidirectional Spatial Mamba (BSM) per elaborare bidirezionalmente le pose latenti, al fine di migliorare la generazione accurata del movimento all'interno di un fotogramma temporale. Il nostro metodo proposto raggiunge un miglioramento fino al 50% nell'indice FID e una velocità fino a 4 volte superiore sui dataset HumanML3D e KIT-ML rispetto al precedente metodo migliore basato sulla diffusione, dimostrando forti capacità di modellazione di sequenze lunghe di alta qualità e generazione in tempo reale del movimento umano. Visita il sito del progetto: https://steve-zeyu-zhang.github.io/MotionMamba/
Presentiamo DragAnything, che utilizza una rappresentazione di entità per ottenere il controllo del movimento di qualsiasi oggetto nella generazione video controllabile. Rispetto ai metodi esistenti di controllo del movimento, DragAnything offre diversi vantaggi. In primo luogo, l'approccio basato su traiettorie è più user-friendly per l'interazione, poiché l'acquisizione di altri segnali di guida (ad esempio, maschere, mappe di profondità) è laboriosa. Gli utenti devono solo disegnare una linea (traiettoria) durante l'interazione. In secondo luogo, la nostra rappresentazione di entità funge da embedding open-domain in grado di rappresentare qualsiasi oggetto, consentendo il controllo del movimento per entità diverse, incluso lo sfondo. Infine, la nostra rappresentazione di entità permette il controllo simultaneo e distinto del movimento per più oggetti. Esperimenti estensivi dimostrano che DragAnything raggiunge prestazioni all'avanguardia per FVD, FID e User Study, in particolare per quanto riguarda il controllo del movimento degli oggetti, dove il nostro metodo supera i metodi precedenti (ad esempio, DragNUWA) del 26% nei voti umani.
Presentiamo FAX, una libreria basata su JAX progettata per supportare calcoli distribuiti e federati su larga scala, sia in applicazioni di data center che cross-device. FAX sfrutta i meccanismi di partizionamento di JAX per consentire il targeting nativo di TPU e runtime JAX all'avanguardia, inclusi Pathways. FAX integra blocchi costitutivi per calcoli federati come primitive in JAX. Ciò offre tre vantaggi principali. Innanzitutto, i calcoli FAX possono essere tradotti in XLA HLO. In secondo luogo, FAX fornisce un'implementazione completa della differenziazione automatica federata, semplificando notevolmente l'espressione di calcoli federati. Infine, i calcoli FAX possono essere interpretati nei sistemi di calcolo federato cross-device esistenti in produzione. Dimostriamo che FAX offre un framework facilmente programmabile, performante e scalabile per calcoli federati nel data center. FAX è disponibile all'indirizzo https://github.com/google-research/google-research/tree/master/fax.
Un problema aperto nella manipolazione mobile è come rappresentare oggetti e scene in modo unificato, affinché i robot possano utilizzarlo sia per navigare nell'ambiente che per manipolare oggetti. Quest'ultimo richiede la cattura di geometrie intricate insieme alla comprensione di semantiche dettagliate, mentre il primo implica la gestione della complessità intrinseca di una scala fisica ampia. In questo lavoro, presentiamo GeFF (Generalizable Feature Fields), un campo di feature neurali generalizzabile a livello di scena che funge da rappresentazione unificata sia per la navigazione che per la manipolazione, operando in tempo reale. Per ottenere ciò, trattiamo la sintesi generativa di nuove viste come un'attività di pre-addestramento, per poi allineare i ricchi prior di scena risultanti con il linguaggio naturale attraverso la distillazione di feature CLIP. Dimostriamo l'efficacia di questo approccio implementando GeFF su un robot quadrupede dotato di un manipolatore. Valutiamo la capacità di GeFF di generalizzare a oggetti open-set, nonché i tempi di esecuzione, durante l'esecuzione di manipolazione mobile open-vocabulary in scene dinamiche.