Articoli di ricerca IA selezionati quotidianamente con traduzioni
Sono stati compiuti progressi significativi utilizzando modelli linguistico-visivi di grandi dimensioni, come Stable Diffusion (SD), per una varietà di attività downstream, tra cui l'editing di immagini, la corrispondenza di immagini e la generazione di forme 3D. Ispirati da questi avanzamenti, esploriamo l'utilizzo di questi estesi modelli linguistico-visivi per segmentare immagini a qualsiasi livello di granularità desiderato, utilizzando un solo campione annotato, proponendo SLiMe. SLiMe inquadra questo problema come un'attività di ottimizzazione. Nello specifico, data un'immagine di addestramento e la sua maschera di segmentazione, estraiamo prima le mappe di attenzione, inclusa la nostra nuova "mappa di auto-attenzione accumulata ponderata", dal prior di SD. Successivamente, utilizzando le mappe di attenzione estratte, gli embedding testuali di Stable Diffusion vengono ottimizzati in modo che ciascuno di essi apprenda una singola regione segmentata dall'immagine di addestramento. Questi embedding appresi evidenziano quindi la regione segmentata nelle mappe di attenzione, che a loro volta possono essere utilizzate per derivare la mappa di segmentazione. Ciò consente a SLiMe di segmentare qualsiasi immagine del mondo reale durante l'inferenza con la granularità della regione segmentata nell'immagine di addestramento, utilizzando un solo esempio. Inoltre, sfruttando ulteriori dati di addestramento quando disponibili, ovvero in modalità few-shot, migliora le prestazioni di SLiMe. Abbiamo condotto una serie di esperimenti ricchi di conoscenza, esaminando vari fattori di progettazione, e abbiamo dimostrato che SLiMe supera altri metodi esistenti di segmentazione one-shot e few-shot.
Gli studi precedenti hanno generalmente assunto che i grandi modelli linguistici non siano in grado di eseguire con precisione operazioni aritmetiche, in particolare la moltiplicazione di numeri con più di 8 cifre, e operazioni che coinvolgono decimali e frazioni, senza l'uso di strumenti di calcolo. Questo articolo si propone di sfidare questa convinzione errata. Con dati di addestramento sufficienti, un modello linguistico da 2 miliardi di parametri può eseguire con precisione operazioni aritmetiche multi-cifra con un'accuratezza quasi del 100% senza perdita di dati, superando significativamente GPT-4 (la cui accuratezza nella moltiplicazione multi-cifra è solo del 4,3%). Dimostriamo inoltre che il nostro MathGLM, messo a punto a partire da GLM-10B su un dataset con ulteriori operazioni aritmetiche multi-step e problemi matematici descritti in testo, raggiunge prestazioni simili a GPT-4 su un set di test di 5.000 campioni di problemi matematici in cinese.
Presentiamo CM3Leon (pronunciato "Camaleonte"), un modello linguistico multimodale basato su token, esclusivamente decoder e potenziato dal retrieval, in grado di generare e completare sia testo che immagini. CM3Leon utilizza l'architettura multimodale CM3, ma dimostra ulteriormente i notevoli vantaggi derivanti dall'aumento della scala e dall'ottimizzazione su dati di istruzione più diversificati. È il primo modello multimodale addestrato seguendo una procedura adattata dai modelli linguistici esclusivamente testuali, inclusa una fase di pre-addestramento su larga scala potenziata dal retrieval e una seconda fase di fine-tuning supervisionato multi-task (SFT). Si tratta inoltre di un modello generico in grado di eseguire sia la generazione da testo a immagine che da immagine a testo, consentendoci di introdurre metodi di decodifica contrastiva autonomi che producono output di alta qualità. Esperimenti estensivi dimostrano che questa procedura è altamente efficace per i modelli multimodali. CM3Leon raggiunge prestazioni all'avanguardia nella generazione da testo a immagine con un consumo computazionale di addestramento 5 volte inferiore rispetto a metodi comparabili (FID zero-shot su MS-COCO di 4,88). Dopo il SFT, CM3Leon può anche dimostrare livelli di controllabilità senza precedenti in compiti che vanno dalla modifica delle immagini guidata dal linguaggio alla generazione e segmentazione controllata dalle immagini.
Presentiamo Matcha-TTS, una nuova architettura encoder-decoder per la modellazione acustica TTS veloce, addestrata utilizzando il conditional flow matching con trasporto ottimale (OT-CFM). Ciò produce un decoder basato su ODE in grado di generare un'output di alta qualità con un numero inferiore di passi di sintesi rispetto ai modelli addestrati con il metodo del score matching. Scelte progettuali attente garantiscono inoltre che ogni passo di sintesi sia veloce da eseguire. Il metodo è probabilistico, non autoregressivo e impara a parlare da zero senza allineamenti esterni. Rispetto a modelli baseline pre-addestrati di alta qualità, il sistema Matcha-TTS ha l'impronta di memoria più piccola, rivaleggia in velocità con i modelli più veloci su enunciati lunghi e ottiene il punteggio medio di opinione più alto in un test di ascolto. Si prega di visitare https://shivammehta25.github.io/Matcha-TTS/ per esempi audio, codice e modelli pre-addestrati.
I recenti progressi nei modelli visione-linguaggio (VLMs) hanno portato a miglioramenti nelle prestazioni su compiti come il question answering visivo e la generazione di didascalie per immagini. Di conseguenza, questi modelli sono ora ben posizionati per ragionare sul mondo fisico, in particolare in domini come la manipolazione robotica. Tuttavia, gli attuali VLMs sono limitati nella loro comprensione dei concetti fisici (ad esempio, materiale, fragilità) degli oggetti comuni, il che ne riduce l'utilità per compiti di manipolazione robotica che richiedono interazione e ragionamento fisico su tali oggetti. Per affrontare questa limitazione, proponiamo PhysObjects, un dataset centrato sugli oggetti che comprende 36.9K annotazioni di concetti fisici raccolte tramite crowd-sourcing e 417K annotazioni automatizzate di oggetti domestici comuni. Dimostriamo che il fine-tuning di un VLM su PhysObjects migliora la sua comprensione dei concetti fisici degli oggetti, catturando i priori umani di questi concetti dall'aspetto visivo. Integriamo questo VLM fisicamente fondato in un framework interattivo con un pianificatore robotico basato su un modello linguistico di grandi dimensioni, e mostriamo un miglioramento delle prestazioni di pianificazione su compiti che richiedono il ragionamento sui concetti fisici degli oggetti, rispetto ai baseline che non utilizzano VLMs fisicamente fondati. Illustriamo inoltre i benefici del nostro VLM fisicamente fondato su un robot reale, dove migliora i tassi di successo delle attività. Rilasciamo il nostro dataset e forniamo ulteriori dettagli e visualizzazioni dei nostri risultati su https://iliad.stanford.edu/pg-vlm/.
I campi neurali, una categoria di reti neurali addestrate a rappresentare segnali ad alta frequenza, hanno attirato notevole attenzione negli ultimi anni grazie alle loro prestazioni impressionanti nella modellazione di dati 3D complessi, in particolare grandi campi di distanza con segno (SDF) o campi di radianza (NeRF) attraverso un singolo percettrone multistrato (MLP). Tuttavia, nonostante la potenza e la semplicità della rappresentazione dei segnali con un MLP, questi metodi incontrano ancora difficoltà nella modellazione di segnali temporali ampi e complessi a causa della capacità limitata degli MLP. In questo articolo, proponiamo un approccio efficace per affrontare questa limitazione incorporando strati residui temporali nei campi neurali, denominati ResFields, una nuova classe di reti progettata specificamente per rappresentare in modo efficace segnali temporali complessi. Effettuiamo un'analisi completa delle proprietà dei ResFields e proponiamo una tecnica di fattorizzazione matriciale per ridurre il numero di parametri addestrabili e migliorare le capacità di generalizzazione. È importante sottolineare che la nostra formulazione si integra perfettamente con le tecniche esistenti e migliora costantemente i risultati in vari compiti impegnativi: approssimazione di video 2D, modellazione di forme dinamiche tramite SDF temporali e ricostruzione di NeRF dinamici. Infine, dimostriamo l'utilità pratica dei ResFields mostrando la loro efficacia nel catturare scene 3D dinamiche da input sensoriali sparsi di un sistema di acquisizione leggero.
I Neural Radiance Fields (NeRFs) hanno dimostrato potenziale in applicazioni come la sintesi di viste e la stima della profondità, ma l'apprendimento da immagini multivista affronta incertezze intrinseche. I metodi attuali per quantificarle sono o euristici o computazionalmente onerosi. Introduciamo BayesRays, un framework post-hoc per valutare l'incertezza in qualsiasi NeRF pre-addestrato senza modificare il processo di training. Il nostro metodo stabilisce un campo di incertezza volumetrico utilizzando perturbazioni spaziali e un'approssimazione bayesiana di Laplace. Deriviamo il nostro algoritmo statisticamente e ne dimostriamo le prestazioni superiori in metriche chiave e applicazioni. Ulteriori risultati sono disponibili all'indirizzo: https://bayesrays.github.io.
La destrezza umana è un tratto distintivo del controllo motorio. Le nostre mani possono sintetizzare rapidamente nuovi comportamenti nonostante la complessità (multi-articolare e multi-giunturale, con 23 articolazioni controllate da oltre 40 muscoli) dei circuiti sensomotori muscolo-scheletrici. In questo lavoro, ci ispiriamo a come la destrezza umana si basi su una varietà di esperienze pregresse, anziché essere acquisita attraverso un singolo compito. Motivati da questa osservazione, ci siamo proposti di sviluppare agenti in grado di costruire sulle loro esperienze precedenti per acquisire rapidamente nuovi comportamenti (precedentemente irraggiungibili). Nello specifico, il nostro approccio sfrutta l'apprendimento multi-task per catturare implicitamente prior comportamentali indipendenti dal compito (MyoDex) per una destrezza simile a quella umana, utilizzando un modello realistico di mano umana - MyoHand. Dimostriamo l'efficacia di MyoDex nella generalizzazione con pochi esempi, nonché nel trasferimento positivo a un ampio repertorio di compiti di manipolazione destrutturata non visti. Gli agenti che sfruttano MyoDex possono risolvere circa 3 volte più compiti e 4 volte più velocemente rispetto a una baseline di distillazione. Mentre i lavori precedenti hanno sintetizzato singoli comportamenti di controllo muscolo-scheletrico, MyoDex è il primo prior generalizzabile per la manipolazione che catalizza l'apprendimento del controllo fisiologico destrutturato in una vasta gamma di comportamenti ricchi di contatto. Dimostriamo inoltre l'efficacia dei nostri paradigmi oltre il controllo muscolo-scheletrico, verso l'acquisizione di destrezza nella mano Adroit a 24 gradi di libertà. Sito web: https://sites.google.com/view/myodex