Articoli di ricerca IA selezionati quotidianamente con traduzioni
I grandi modelli multimodali addestrati su documenti naturali, che intervallano immagini e testo, superano i modelli addestrati su coppie immagine-testo su vari benchmark multimodali. Tuttavia, i dataset utilizzati per addestrare questi modelli non sono stati rilasciati e il processo di raccolta non è stato completamente specificato. Introduciamo il dataset OBELICS, un dataset aperto e su larga scala di documenti intervallati immagine-testo, filtrato e composto da 141 milioni di pagine web estratte da Common Crawl, 353 milioni di immagini associate e 115 miliardi di token di testo. Descriviamo il processo di creazione del dataset, presentiamo regole di filtraggio complete e forniamo un'analisi del contenuto del dataset. Per dimostrare la fattibilità di OBELICS, addestriamo modelli di visione e linguaggio da 9 e 80 miliardi di parametri denominati IDEFICS, ottenendo prestazioni competitive su diversi benchmark multimodali. Rilasciamo il nostro dataset, i modelli e il codice.
La ricostruzione 3D da una singola immagine è un compito importante ma impegnativo che richiede una conoscenza approfondita del nostro mondo naturale. Molti metodi esistenti risolvono questo problema ottimizzando un campo di radianza neurale sotto la guida di modelli di diffusione 2D, ma soffrono di tempi di ottimizzazione prolungati, risultati 3D incoerenti e geometrie scadenti. In questo lavoro, proponiamo un metodo innovativo che prende in input una singola immagine di qualsiasi oggetto e genera una mesh 3D texturizzata a 360 gradi in un unico passaggio feed-forward. Data una singola immagine, utilizziamo prima un modello di diffusione 2D condizionato alla vista, Zero123, per generare immagini multi-vista per la vista di input, e poi miriamo a sollevarle nello spazio 3D. Poiché i metodi di ricostruzione tradizionali faticano con previsioni multi-vista incoerenti, costruiamo il nostro modulo di ricostruzione 3D su un metodo di ricostruzione neurale generalizzabile basato su SDF e proponiamo diverse strategie di addestramento critiche per abilitare la ricostruzione di mesh a 360 gradi. Senza costose ottimizzazioni, il nostro metodo ricostruisce forme 3D in un tempo significativamente inferiore rispetto ai metodi esistenti. Inoltre, il nostro metodo favorisce una migliore geometria, genera risultati più coerenti in 3D e aderisce più strettamente all'immagine di input. Valutiamo il nostro approccio sia su dati sintetici che su immagini reali e ne dimostriamo la superiorità in termini di qualità della mesh e tempo di esecuzione. Inoltre, il nostro approccio può supportare senza soluzione di continuità il compito di testo-a-3D integrandosi con modelli di diffusione testo-immagine disponibili sul mercato.
Questo articolo introduce DreamDiffusion, un metodo innovativo per generare immagini di alta qualità direttamente dai segnali elettroencefalografici (EEG) cerebrali, senza la necessità di tradurre i pensieri in testo. DreamDiffusion sfrutta modelli pre-addestrati di testo-immagine e utilizza il temporal masked signal modeling per pre-addestrare l'encoder EEG, ottenendo rappresentazioni EEG efficaci e robuste. Inoltre, il metodo sfrutta ulteriormente l'encoder di immagini CLIP per fornire una supervisione aggiuntiva, allineando meglio gli embedding EEG, testo e immagine anche con un numero limitato di coppie EEG-immagine. Nel complesso, il metodo proposto supera le sfide legate all'uso dei segnali EEG per la generazione di immagini, come il rumore, le informazioni limitate e le differenze individuali, ottenendo risultati promettenti. I risultati quantitativi e qualitativi dimostrano l'efficacia del metodo proposto come un passo significativo verso un sistema portatile e a basso costo di "pensieri-immagine", con potenziali applicazioni nelle neuroscienze e nella visione artificiale.
I modelli di diffusione text-to-image hanno attirato un notevole interesse grazie alla loro ampia applicabilità in diversi campi. Tuttavia, persistono sfide nella creazione di modelli controllabili per la generazione di oggetti personalizzati. In questo articolo, identifichiamo innanzitutto i problemi di entanglement nei modelli generativi personalizzati esistenti, e poi proponiamo una strategia di addestramento di data augmentation semplice ed efficiente che guida il modello di diffusione a concentrarsi esclusivamente sull'identità dell'oggetto. Inserendo i livelli adattatori plug-and-play di un modello di diffusione controllabile pre-addestrato, il nostro modello acquisisce la capacità di controllare la posizione e le dimensioni di ciascun oggetto personalizzato generato. Durante l'inferenza, proponiamo una tecnica di campionamento guidato regionalmente per mantenere la qualità e la fedeltà delle immagini generate. Il nostro metodo raggiunge una fedeltà comparabile o superiore per gli oggetti personalizzati, producendo un modello di diffusione text-to-image robusto, versatile e controllabile in grado di generare immagini realistiche e personalizzate. Il nostro approccio dimostra un potenziale significativo per varie applicazioni, come quelle nel campo dell'arte, dell'intrattenimento e del design pubblicitario.
Presentiamo un innovativo approccio di allineamento-prima-generazione per affrontare la complessa sfida di generare forme 3D generali basate su immagini 2D o testi. Apprendere direttamente un modello generativo condizionato da immagini o testi a forme 3D tende a produrre risultati incoerenti con le condizioni, poiché le forme 3D possiedono una dimensione aggiuntiva la cui distribuzione differisce significativamente da quella delle immagini 2D e dei testi. Per colmare il divario di dominio tra le tre modalità e facilitare la generazione di forme 3D condizionate da più modalità, esploriamo la rappresentazione delle forme 3D in uno spazio allineato forma-immagine-testo. Il nostro framework comprende due modelli: un Variational Auto-Encoder Allineato Forma-Immagine-Testo (SITA-VAE) e un Aligned Shape Latent Diffusion Model condizionato (ASLDM). Il primo modello codifica le forme 3D nello spazio latente delle forme allineato all'immagine e al testo e ricostruisce i campi neurali 3D dettagliati corrispondenti agli embedding di forma dati attraverso un decoder basato su transformer. Il secondo modello apprende una funzione di mappatura probabilistica dallo spazio dell'immagine o del testo allo spazio latente delle forme. I nostri esperimenti estesi dimostrano che l'approccio proposto può generare forme 3D di qualità superiore e più diversificate che si conformano semanticamente meglio agli input condizionali visivi o testuali, validando l'efficacia dello spazio allineato forma-immagine-testo per la generazione di forme 3D cross-modali.
I modelli linguistici pre-addestrati su larga scala (PLM) sono alla base della maggior parte dei nuovi sviluppi nell'elaborazione del linguaggio naturale. Hanno spostato il campo da pipeline di modelli specifici per applicazioni a un singolo modello adattabile a un'ampia gamma di compiti. PLM autoregressivi come GPT-3 o PaLM, insieme a tecniche come l'apprendimento few-shot, hanno ulteriormente spostato la modalità di output verso la generazione invece della classificazione o regressione. Nonostante il loro uso ubiquitario, la qualità della generazione dei modelli linguistici viene raramente valutata quando questi modelli vengono introdotti. Inoltre, non è chiaro come i compiti di generazione esistenti—sebbene possano essere utilizzati per confrontare i sistemi a un livello elevato—siano correlati ai casi d'uso reali per i quali le persone li stanno adottando. In questo lavoro, discutiamo come adattare i benchmark di generazione specifici per applicazioni esistenti ai PLM e forniamo uno studio empirico approfondito delle limitazioni e delle capacità dei PLM nei compiti di generazione del linguaggio naturale lungo dimensioni come scala, architettura, linguaggio di input e output. I nostri risultati mostrano che i PLM differiscono nella loro applicabilità a diversi regimi di dati e nella loro generalizzazione a più lingue, e informano su quali PLM utilizzare per una determinata configurazione di compito di generazione. Condividiamo le migliori pratiche da considerare durante la valutazione delle capacità di generazione nello sviluppo dei futuri PLM.
I modelli dinamici appresi da osservazioni visive si sono dimostrati efficaci in vari compiti di manipolazione robotica. Una delle questioni chiave per l'apprendimento di tali modelli dinamici è quale rappresentazione della scena utilizzare. I lavori precedenti assumono tipicamente una rappresentazione a dimensione o risoluzione fissa, che può risultare inefficiente per compiti semplici e inefficace per compiti più complessi. In questo lavoro, indaghiamo come apprendere rappresentazioni dinamiche e adattive a diversi livelli di astrazione per ottenere il miglior compromesso tra efficienza ed efficacia. Nello specifico, costruiamo rappresentazioni particellari a risoluzione dinamica dell'ambiente e apprendiamo un modello dinamico unificato utilizzando reti neurali a grafo (GNN) che consente la selezione continua del livello di astrazione. Durante il test, l'agente può determinare in modo adattivo la risoluzione ottimale ad ogni passo di controllo predittivo del modello (MPC). Valutiamo il nostro metodo nella manipolazione di pile di oggetti, un compito che incontriamo comunemente in applicazioni culinarie, agricole, manifatturiere e farmaceutiche. Attraverso valutazioni complete sia in simulazione che nel mondo reale, dimostriamo che il nostro metodo raggiunge prestazioni significativamente migliori rispetto ai metodi di riferimento a risoluzione fissa all'avanguardia nel raggruppamento, ordinamento e ridistribuzione di pile di oggetti granulari realizzati con varie istanze come chicchi di caffè, mandorle, mais, ecc.
Dimostriamo, per la prima volta, che le reti neurali addestrate esclusivamente su dati sintetici raggiungono un'accuratezza all'avanguardia nel problema della stima della posa e della forma umana 3D (HPS) a partire da immagini reali. I precedenti dataset sintetici sono stati di piccole dimensioni, irrealistici o privi di abbigliamento realistico. Raggiungere un sufficiente realismo non è banale e mostriamo come farlo per corpi interi in movimento. Nello specifico, il nostro dataset BEDLAM contiene video RGB monoculari con corpi 3D ground-truth in formato SMPL-X. Include una varietà di forme corporee, movimenti, tonalità della pelle, capelli e abbigliamento. L'abbigliamento è simulato in modo realistico sui corpi in movimento utilizzando una simulazione fisica commerciale degli indumenti. Renderizziamo un numero variabile di persone in scene realistiche con illuminazione e movimenti della camera diversificati. Addestriamo quindi vari regressori HPS utilizzando BEDLAM e raggiungiamo un'accuratezza all'avanguardia su benchmark di immagini reali nonostante l'addestramento con dati sintetici. Utilizziamo BEDLAM per ottenere approfondimenti su quali scelte di progettazione del modello siano importanti per l'accuratezza. Con buoni dati di addestramento sintetici, scopriamo che un metodo di base come HMR si avvicina all'accuratezza del metodo SOTA attuale (CLIFF). BEDLAM è utile per una varietà di attività e tutte le immagini, i corpi ground-truth, gli indumenti 3D, il codice di supporto e altro ancora sono disponibili per scopi di ricerca. Inoltre, forniamo informazioni dettagliate sulla nostra pipeline di generazione di dati sintetici, consentendo ad altri di generare i propri dataset. Visita la pagina del progetto: https://bedlam.is.tue.mpg.de/.
Le reti neurali profonde (DNN) sono diventate onnipresenti nel campo dell'apprendimento automatico, ma il loro consumo energetico rimane un problema significativo. Abbassare la tensione di alimentazione è una strategia efficace per ridurre il consumo energetico. Tuttavia, ridurre in modo aggressivo la tensione di alimentazione può portare a un degrado dell'accuratezza a causa di inversioni casuali di bit nella memoria statica ad accesso casuale (SRAM), dove sono memorizzati i parametri del modello. Per affrontare questa sfida, introduciamo NeuralFuse, un modulo aggiuntivo innovativo che affronta il compromesso tra accuratezza ed energia in regimi di bassa tensione, apprendendo trasformazioni degli input per generare rappresentazioni di dati resistenti agli errori. NeuralFuse protegge l'accuratezza delle DNN sia in scenari nominali che a bassa tensione. Inoltre, NeuralFuse è facile da implementare e può essere applicato prontamente a DNN con accesso limitato, come hardware non configurabile o accesso remoto a API basate su cloud. I risultati sperimentali dimostrano che, con un tasso di errore di bit dell'1%, NeuralFuse può ridurre l'energia di accesso alla memoria SRAM fino al 24%, migliorando al contempo l'accuratezza fino al 57%. Per quanto ne sappiamo, questo è il primo approccio agnostico al modello (ovvero, senza riaddestramento del modello) per affrontare gli errori di bit indotti dalla bassa tensione. Il codice sorgente è disponibile all'indirizzo https://github.com/IBM/NeuralFuse.
Presentiamo ArrayBot, un sistema di manipolazione distribuita costituito da una matrice 16x16 di pilastri scorrevoli verticalmente integrati con sensori tattili, in grado di supportare, percepire e manipolare simultaneamente oggetti su superficie. Verso una manipolazione distribuita generalizzabile, sfruttiamo algoritmi di apprendimento per rinforzo (RL) per la scoperta automatica di politiche di controllo. Di fronte alla massiccia ridondanza delle azioni, proponiamo di rimodellare lo spazio delle azioni considerando la patch di azione spazialmente locale e le azioni a bassa frequenza nel dominio delle frequenze. Con questo spazio delle azioni rimodellato, addestriamo agenti RL che possono riposizionare oggetti diversi attraverso sole osservazioni tattili. Sorprendentemente, scopriamo che la politica individuata non solo può generalizzare a forme di oggetti non viste nel simulatore, ma anche trasferirsi al robot fisico senza alcuna randomizzazione del dominio. Sfruttando la politica implementata, presentiamo numerosi compiti di manipolazione nel mondo reale, illustrando il vasto potenziale dell'RL su ArrayBot per la manipolazione distribuita.
Negli ultimi anni, i modelli linguistici basati su Transformer sono diventati l'approccio standard per le attività di elaborazione del linguaggio naturale. Tuttavia, i rigorosi requisiti di throughput e latenza nelle applicazioni industriali ne stanno limitando l'adozione. Per mitigare questo divario, tecniche di compressione dei modelli come il pruning strutturato vengono utilizzate per migliorare l'efficienza dell'inferenza. Tuttavia, la maggior parte dei runtime di inferenza per reti neurali esistenti non offre un supporto adeguato per la sparsità strutturata. In questo articolo, proponiamo uno stack software efficiente per l'inferenza di deep learning sparsa per modelli linguistici basati su Transformer, in cui i pesi vengono potati con una dimensione di blocco costante. Il nostro acceleratore software sparsa sfrutta Intel Deep Learning Boost per massimizzare le prestazioni della moltiplicazione matrice sparsa - matrice densa (comunemente abbreviata come SpMM) sulle CPU. Il nostro kernel SpMM supera le librerie sparse esistenti (oneMKL, TVM e LIBXSMM) di un ordine di grandezza su un'ampia gamma di forme GEMM sotto 5 rapporti di sparsità rappresentativi (70%, 75%, 80%, 85%, 90%). Inoltre, il nostro kernel SpMM mostra un miglioramento fino a 5x rispetto al kernel GEMM denso di oneDNN, una libreria densa altamente ottimizzata ampiamente utilizzata nell'industria. Applichiamo il nostro acceleratore sparsa su modelli linguistici basati su Transformer ampiamente utilizzati, tra cui Bert-Mini, DistilBERT, Bert-Base e BERT-Large. Il nostro software di inferenza sparsa mostra un miglioramento fino a 1,5x rispetto a Deepsparse di Neural Magic nelle stesse configurazioni su Xeon su Amazon Web Services sotto vincoli di latenza proxy di produzione. Confrontiamo inoltre la nostra soluzione con due soluzioni di inferenza basate su framework, ONNX Runtime e PyTorch, e dimostriamo un miglioramento fino a 37x rispetto a ONNX Runtime e 345x rispetto a PyTorch su Xeon sotto i vincoli di latenza. Tutto il codice sorgente è disponibile pubblicamente su Github: https://github.com/intel/intel-extension-for-transformers.