Articoli di ricerca IA selezionati quotidianamente con traduzioni
Una delle capacità emergenti più impressionanti dei grandi modelli linguistici (LLM) è la generazione di codice, incluso il linguaggio di interrogazione strutturato (SQL) per i database. Per il compito di convertire testo in linguaggio naturale in query SQL, noto come Text-to-SQL, l'adattamento degli LLM è di fondamentale importanza, sia in contesti di apprendimento in-context che di fine-tuning, a seconda della quantità di dati di adattamento utilizzati. In questo articolo, proponiamo un modello Text-to-SQL basato su LLM, chiamato SQL-PaLM, che si avvale di PaLM-2 e che spinge lo stato dell'arte in entrambi i contesti. La versione few-shot di SQL-PaLM si basa su un approccio di prompting basato sull'esecuzione e sull'autoconsistenza progettato per Text-to-SQL, e raggiunge un'accuratezza del 77,3% sul test-suite di Spider, che, per quanto ne sappiamo, è il primo a superare significativamente, con un margine del 4%, il precedente stato dell'arte ottenuto con il fine-tuning. Inoltre, dimostriamo che la versione fine-tuned di SQL-PaLM lo supera ulteriormente di un altro 1%. Verso l'applicazione di SQL-PaLM a scenari reali, valutiamo ulteriormente la sua robustezza su altre varianti impegnative di Spider e dimostriamo la superiore capacità di generalizzazione di SQL-PaLM. Inoltre, attraverso ampi studi di caso, dimostriamo le impressionanti capacità intelligenti e i vari fattori di successo dei modelli Text-to-SQL basati su LLM.
I modelli di diffusione text-to-image possono creare immagini straordinarie a partire da descrizioni in linguaggio naturale, rivaleggiando con il lavoro di artisti e fotografi professionisti. Tuttavia, questi modelli sono di grandi dimensioni, con architetture di rete complesse e decine di iterazioni di denoising, rendendoli computazionalmente costosi e lenti da eseguire. Di conseguenza, per eseguire i modelli di diffusione su larga scala sono necessarie GPU di fascia alta e inferenza basata su cloud. Questo è costoso e ha implicazioni sulla privacy, specialmente quando i dati degli utenti vengono inviati a terze parti. Per superare queste sfide, presentiamo un approccio generico che, per la prima volta, consente di eseguire modelli di diffusione text-to-image su dispositivi mobili in meno di 2 secondi. Raggiungiamo questo obiettivo introducendo un'architettura di rete efficiente e migliorando la distillazione dei passi. Nello specifico, proponiamo una UNet efficiente identificando la ridondanza del modello originale e riducendo il calcolo del decodificatore di immagini tramite distillazione dei dati. Inoltre, miglioriamo la distillazione dei passi esplorando strategie di addestramento e introducendo la regolarizzazione dalla guida senza classificatore. I nostri ampi esperimenti su MS-COCO dimostrano che il nostro modello con 8 passi di denoising ottiene punteggi FID e CLIP migliori rispetto a Stable Diffusion v1.5 con 50 passi. Il nostro lavoro democratizza la creazione di contenuti portando potenti modelli di diffusione text-to-image nelle mani degli utenti.
Presentiamo Wuerstchen, una tecnica innovativa per la sintesi di immagini da testo che unisce prestazioni competitive a una convenienza senza precedenti e a una facilità di addestramento su hardware limitato. Basandoci sui recenti progressi nel campo dell'apprendimento automatico, il nostro approccio, che utilizza strategie di diffusione latente con alti tassi di compressione delle immagini latenti, riduce significativamente il carico computazionale tipicamente associato ai modelli all'avanguardia, preservando, se non migliorando, la qualità delle immagini generate. Wuerstchen ottiene notevoli miglioramenti in termini di velocità durante l'inferenza, rendendo così più fattibili applicazioni in tempo reale. Uno dei principali vantaggi del nostro metodo risiede nei modesti requisiti di addestramento, che richiedono solo 9.200 ore di GPU, riducendo drasticamente i costi abituali senza compromettere le prestazioni finali. In un confronto con le tecnologie più avanzate, abbiamo riscontrato che l'approccio offre una forte competitività. Questo articolo apre la strada a una nuova linea di ricerca che privilegia sia le prestazioni che l'accessibilità computazionale, democratizzando così l'uso di tecnologie AI sofisticate. Attraverso Wuerstchen, dimostriamo un significativo passo avanti nel campo della sintesi di immagini da testo, offrendo un percorso innovativo da esplorare nelle ricerche future.
Presentiamo GenMM, un modello generativo che "estrae" il maggior numero possibile di movimenti diversi da una o poche sequenze di esempio. In netto contrasto con i metodi esistenti basati sui dati, che tipicamente richiedono lunghi tempi di addestramento offline, sono soggetti ad artefatti visivi e tendono a fallire su scheletri grandi e complessi, GenMM eredita la natura priva di addestramento e la qualità superiore del noto metodo Motion Matching. GenMM è in grado di sintetizzare un movimento di alta qualità in una frazione di secondo, anche con strutture scheletriche altamente complesse e di grandi dimensioni. Al centro del nostro framework generativo si trova il modulo di generative motion matching, che utilizza la similarità visiva bidirezionale come funzione di costo generativa per il motion matching e opera in un framework multi-stadio per affinare progressivamente un'ipotesi casuale utilizzando corrispondenze di movimento esemplari. Oltre alla generazione di movimenti diversi, dimostriamo la versatilità del nostro framework generativo estendendolo a una serie di scenari non possibili con il solo motion matching, tra cui il completamento del movimento, la generazione guidata da fotogrammi chiave, il looping infinito e il riassemblaggio del movimento. Il codice e i dati per questo articolo sono disponibili su https://wyysf-98.github.io/GenMM/.
Gli approcci moderni di deep learning trasformano solitamente gli input in una forma specifica per la modalità. Ad esempio, l'approccio più comune al deep learning per la classificazione di immagini prevede la decodifica dei byte dei file immagine in un tensore RGB, che viene poi passato a una rete neurale. Noi, invece, indaghiamo la possibilità di eseguire la classificazione direttamente sui byte dei file, senza la necessità di decodificare i file al momento dell'inferenza. Utilizzare i byte dei file come input del modello consente lo sviluppo di modelli in grado di operare su più modalità di input. Il nostro modello, ByteFormer, raggiunge un'accuratezza di classificazione Top-1 su ImageNet del 77,33% quando viene addestrato e testato direttamente sui byte di file TIFF, utilizzando un'architettura transformer con una configurazione simile a DeiT-Ti (72,2% di accuratezza quando opera su immagini RGB). Senza modifiche o ottimizzazione degli iperparametri, ByteFormer raggiunge un'accuratezza di classificazione del 95,42% quando opera su file WAV del dataset Speech Commands v2 (rispetto a un'accuratezza state-of-the-art del 98,7%). Inoltre, dimostriamo che ByteFormer ha applicazioni nell'inferenza che preserva la privacy. ByteFormer è in grado di eseguire inferenza su particolari rappresentazioni di input offuscate senza perdita di accuratezza. Dimostriamo anche la capacità di ByteFormer di eseguire inferenza con una ipotetica fotocamera che preserva la privacy, evitando di formare immagini complete mascherando costantemente il 90% dei canali dei pixel, raggiungendo comunque un'accuratezza del 71,35% su ImageNet. Il nostro codice sarà reso disponibile all'indirizzo https://github.com/apple/ml-cvnets/tree/main/examples/byteformer.
Creare un video vivido da un evento o scenario nella nostra immaginazione è un'esperienza davvero affascinante. I recenti progressi nella sintesi video da testo hanno rivelato il potenziale per raggiungere questo obiettivo utilizzando solo prompt. Sebbene il testo sia conveniente per trasmettere il contesto generale della scena, potrebbe essere insufficiente per un controllo preciso. In questo articolo, esploriamo la generazione di video personalizzati utilizzando il testo come descrizione del contesto e la struttura del movimento (ad esempio, la profondità frame per frame) come guida concreta. Il nostro metodo, denominato Make-Your-Video, prevede la generazione video congiuntamente condizionata utilizzando un modello di diffusione latente pre-addestrato per la sintesi di immagini statiche e poi promosso per la generazione video con l'introduzione di moduli temporali. Questo schema di apprendimento in due fasi non solo riduce le risorse computazionali richieste, ma migliora anche le prestazioni trasferendo i concetti ricchi disponibili nei dataset di immagini esclusivamente nella generazione video. Inoltre, utilizziamo una strategia semplice ma efficace di maschera di attenzione causale per abilitare la sintesi di video più lunghi, mitigando efficacemente il potenziale degrado della qualità. I risultati sperimentali mostrano la superiorità del nostro metodo rispetto alle baseline esistenti, in particolare in termini di coerenza temporale e fedeltà alle indicazioni degli utenti. Inoltre, il nostro modello abilita diverse applicazioni intriganti che dimostrano un potenziale per un utilizzo pratico.
I modelli di diffusione text-to-image hanno dimostrato una capacità senza pari nel generare immagini di alta qualità e diversificate a partire da un concetto testuale (ad esempio, "un medico", "amore"). Tuttavia, il processo interno di mappatura del testo in una rappresentazione visiva ricca rimane un enigma. In questo lavoro, affrontiamo la sfida di comprendere le rappresentazioni concettuali nei modelli text-to-image scomponendo un prompt di input in un piccolo insieme di elementi interpretabili. Questo viene ottenuto apprendendo uno pseudo-token che è una combinazione ponderata e sparsa di token del vocabolario del modello, con l'obiettivo di ricostruire le immagini generate per il concetto dato. Applicata al modello all'avanguardia Stable Diffusion, questa scomposizione rivela strutture non banali e sorprendenti nelle rappresentazioni dei concetti. Ad esempio, scopriamo che alcuni concetti come "un presidente" o "un compositore" sono dominati da istanze specifiche (ad esempio, "Obama", "Biden") e dalle loro interpolazioni. Altri concetti, come "felicità", combinano termini associati che possono essere concreti ("famiglia", "risate") o astratti ("amicizia", "emozione"). Oltre a scrutare il funzionamento interno di Stable Diffusion, il nostro metodo abilita anche applicazioni come la scomposizione di singole immagini in token, il rilevamento e la mitigazione dei bias, e la manipolazione semantica delle immagini. Il nostro codice sarà disponibile all'indirizzo: https://hila-chefer.github.io/Conceptor/
Esploriamo il potenziale di apprendimento di rappresentazioni visive utilizzando immagini sintetiche generate da modelli testo-immagine. Questa è una domanda naturale alla luce delle eccellenti prestazioni di tali modelli nella generazione di immagini di alta qualità. Consideriamo in particolare Stable Diffusion, uno dei principali modelli testo-immagine open source. Dimostriamo che (1) quando il modello generativo è configurato con un'appropriata scala di guida senza classificatore, l'addestramento di metodi auto-supervisionati su immagini sintetiche può eguagliare o superare la controparte con immagini reali; (2) trattando le multiple immagini generate dallo stesso prompt di testo come positivi reciproci, sviluppiamo un metodo di apprendimento contrastivo multi-positivo, che chiamiamo StableRep. Utilizzando esclusivamente immagini sintetiche, le rappresentazioni apprese da StableRep superano le prestazioni delle rappresentazioni apprese da SimCLR e CLIP utilizzando lo stesso set di prompt di testo e le corrispondenti immagini reali, su dataset su larga scala. Quando aggiungiamo ulteriormente la supervisione linguistica, StableRep addestrato con 20 milioni di immagini sintetiche raggiunge una precisione migliore rispetto a CLIP addestrato con 50 milioni di immagini reali.
La generazione personalizzata di immagini da testo utilizzando modelli di diffusione è stata recentemente proposta e ha attirato molta attenzione. Dato un piccolo numero di immagini contenenti un concetto nuovo (ad esempio, un giocattolo unico), l'obiettivo è adattare il modello generativo per catturare i dettagli visivi fini del nuovo concetto e generare immagini fotorealistiche seguendo una condizione testuale. Presentiamo un metodo plug-in, denominato ViCo, per una generazione personalizzata rapida e leggera. Nello specifico, proponiamo un modulo di attenzione sulle immagini per condizionare il processo di diffusione sulla semantica visiva a livello di patch. Introduciamo una maschera dell'oggetto basata sull'attenzione che viene ottenuta quasi senza costi aggiuntivi dal modulo di attenzione. Inoltre, progettiamo una semplice regolarizzazione basata sulle proprietà intrinseche delle mappe di attenzione testo-immagine per alleviare il comune degrado da overfitting. A differenza di molti modelli esistenti, il nostro metodo non effettua il fine-tuning di alcun parametro del modello di diffusione originale. Ciò consente una distribuzione del modello più flessibile e trasferibile. Con un addestramento di soli pochi parametri (~6% della U-Net di diffusione), il nostro metodo raggiunge prestazioni comparabili o addirittura migliori rispetto a tutti i modelli all'avanguardia, sia qualitativamente che quantitativamente.
L'apprendimento auto-supervisionato (SSL) è emerso recentemente come un paradigma promettente per addestrare modelli generalizzabili su dati su larga scala nei campi della visione, del testo e del parlato. Sebbene l'SSL si sia dimostrato efficace nel parlato e nell'audio, la sua applicazione all'audio musicale non è stata ancora esplorata a fondo. Ciò è principalmente dovuto alle sfide distintive associate alla modellazione della conoscenza musicale, in particolare alle sue caratteristiche tonali e di altezza. Per colmare questa lacuna di ricerca, proponiamo un modello acustico per la comprensione musicale con addestramento auto-supervisionato su larga scala (MERT), che incorpora modelli insegnanti per fornire etichette pseudo nello stile del masked language modelling (MLM) durante il pre-addestramento acustico. Nella nostra esplorazione, abbiamo identificato una combinazione superiore di modelli insegnanti, che supera gli approcci convenzionali per il parlato e l'audio in termini di prestazioni. Questa combinazione include un insegnante acustico basato su Residual Vector Quantization - Variational AutoEncoder (RVQ-VAE) e un insegnante musicale basato sulla trasformata Constant-Q (CQT). Questi insegnanti guidano efficacemente il nostro modello studente, un encoder di tipo BERT, a modellare meglio l'audio musicale. Inoltre, introduciamo un aumento dei dati con miscela di rumore in-batch per migliorare la robustezza delle rappresentazioni. Inoltre, esploriamo un'ampia gamma di impostazioni per superare l'instabilità nel pre-addestramento dei modelli linguistici acustici, il che consente al nostro paradigma progettato di scalare da 95M a 330M parametri. I risultati sperimentali indicano che il nostro modello può generalizzare e ottenere buone prestazioni su 14 task di comprensione musicale, raggiungendo punteggi complessivi all'avanguardia (SOTA). Il codice e i modelli sono disponibili online: https://github.com/yizhilll/MERT.
Esiste una forte richiesta per personalizzare i modelli pre-addestrati di testo-immagine di grandi dimensioni, come Stable Diffusion, al fine di generare concetti innovativi, come gli utenti stessi. Tuttavia, il nuovo concetto aggiunto dai precedenti metodi di personalizzazione spesso mostra capacità di combinazione inferiori rispetto a quelli originali, anche quando vengono fornite diverse immagini durante l'addestramento. Proponiamo quindi un nuovo metodo di personalizzazione che consente l'integrazione senza soluzione di continuità di un individuo unico nel modello di diffusione pre-addestrato utilizzando una sola fotografia del viso e solo 1024 parametri apprendibili in meno di 3 minuti. In questo modo, possiamo generare senza sforzo immagini straordinarie di questa persona in qualsiasi posa o posizione, interagendo con chiunque e facendo qualsiasi cosa immaginabile a partire da prompt di testo. Per raggiungere questo obiettivo, analizziamo e costruiamo una base ben definita di celebrità dallo spazio di embedding del grande encoder di testo pre-addestrato. Quindi, data una foto del viso come identità target, generiamo il suo embedding ottimizzando il peso di questa base e bloccando tutti gli altri parametri. Grazie alla base di celebrità proposta, la nuova identità nel nostro modello personalizzato mostra una migliore capacità di combinazione di concetti rispetto ai precedenti metodi di personalizzazione. Inoltre, il nostro modello può anche apprendere diverse nuove identità contemporaneamente e farle interagire tra loro, cosa che il precedente modello di personalizzazione non riesce a fare. Il codice verrà rilasciato.
I modelli generativi su larga scala sono in grado di produrre immagini di alta qualità a partire da descrizioni testuali dettagliate. Tuttavia, molti aspetti di un'immagine sono difficili o impossibili da trasmettere attraverso il testo. Introduciamo il self-guidance, un metodo che offre un maggiore controllo sulle immagini generate guidando le rappresentazioni interne dei modelli di diffusione. Dimostriamo che proprietà come la forma, la posizione e l'aspetto degli oggetti possono essere estratte da queste rappresentazioni e utilizzate per orientare il campionamento. Il self-guidance funziona in modo simile al classifier guidance, ma utilizza segnali presenti nel modello pre-addestrato stesso, senza richiedere modelli aggiuntivi o ulteriore training. Mostriamo come un semplice insieme di proprietà possa essere composto per eseguire manipolazioni complesse delle immagini, come modificare la posizione o le dimensioni degli oggetti, fondere l'aspetto degli oggetti di un'immagine con il layout di un'altra, comporre oggetti da molte immagini in una sola e altro ancora. Mostriamo inoltre che il self-guidance può essere utilizzato per modificare immagini reali. Per i risultati e una demo interattiva, consulta la nostra pagina del progetto all'indirizzo https://dave.ml/selfguidance/.
Generare musica da descrizioni testuali è una modalità user-friendly, poiché il testo rappresenta un'interfaccia relativamente semplice per l'interazione dell'utente. Mentre alcuni approcci utilizzano testi per controllare la generazione di audio musicale, modificare gli elementi musicali nell'audio generato risulta complesso per gli utenti. Al contrario, la musica simbolica offre maggiore facilità di modifica, rendendo più accessibile la manipolazione di specifici elementi musicali. In questo articolo, proponiamo MuseCoco, che genera musica simbolica da descrizioni testuali utilizzando attributi musicali come ponte per suddividere il compito in due fasi: comprensione da testo ad attributo e generazione da attributo a musica. MuseCoco, acronimo di Music Composition Copilot, consente ai musicisti di generare musica direttamente da descrizioni testuali, offrendo un significativo miglioramento dell'efficienza rispetto alla creazione di musica completamente da zero. Il sistema presenta due principali vantaggi: in primo luogo, è efficiente dal punto di vista dei dati. Nella fase di generazione da attributo a musica, gli attributi possono essere estratti direttamente dalle sequenze musicali, rendendo l'addestramento del modello auto-supervisionato. Nella fase di comprensione da testo ad attributo, il testo viene sintetizzato e raffinato da ChatGPT in base a modelli di attributi predefiniti. In secondo luogo, il sistema consente un controllo preciso con attributi specifici nelle descrizioni testuali e offre molteplici opzioni di controllo attraverso approcci condizionati da attributi o da testo. MuseCoco supera i sistemi di riferimento in termini di musicalità, controllabilità e punteggio complessivo rispettivamente di almeno 1,27, 1,08 e 1,32. Inoltre, si osserva un miglioramento significativo di circa il 20% nell'accuratezza del controllo oggettivo. Oltre a ciò, abbiamo sviluppato un modello robusto su larga scala con 1,2 miliardi di parametri, che dimostra una controllabilità e musicalità eccezionali.
I modelli linguistici di grandi dimensioni basati su trasformatori hanno ottenuto notevoli successi empirici. Tuttavia, man mano che vengono implementati più ampiamente, cresce la necessità di comprendere meglio i loro meccanismi interni per renderli più affidabili. Questi modelli sembrano memorizzare grandi quantità di conoscenza dai loro dati di addestramento e adattarsi rapidamente alle nuove informazioni fornite nel loro contesto o prompt. Studiamo come i trasformatori bilanciano questi due tipi di conoscenza considerando una configurazione sintetica in cui i token sono generati da distribuzioni di bigrammi globali o specifici del contesto. Attraverso un'attenta analisi empirica del processo di addestramento su un trasformatore semplificato a due strati, illustriamo l'apprendimento rapido dei bigrammi globali e lo sviluppo più lento di un meccanismo di "testa di induzione" per i bigrammi nel contesto. Evidenziamo il ruolo delle matrici dei pesi come memorie associative, forniamo intuizioni teoriche su come i gradienti ne abilitano l'apprendimento durante l'addestramento e studiamo il ruolo delle proprietà distribuzionali dei dati.
L'intelligenza del codice svolge un ruolo chiave nella trasformazione dell'ingegneria del software moderna. Recentemente, modelli basati sul deep learning, in particolare i grandi modelli linguistici (LLM) basati su Transformer, hanno dimostrato un potenziale notevole nell'affrontare questi compiti sfruttando enormi quantità di dati di codice open-source e le caratteristiche dei linguaggi di programmazione. Tuttavia, lo sviluppo e il deployment di tali modelli richiedono spesso competenze sia nel machine learning che nell'ingegneria del software, creando una barriera all'adozione dei modelli. In questo articolo, presentiamo CodeTF, una libreria open-source basata su Transformer per LLM di codice all'avanguardia e per l'intelligenza del codice. Seguendo i principi di design modulare e framework estensibile, abbiamo progettato CodeTF con un'interfaccia unificata per consentire un accesso e uno sviluppo rapidi su diversi tipi di modelli, dataset e task. La nostra libreria supporta una raccolta di modelli Code LLM preaddestrati e benchmark di codice popolari, inclusa un'interfaccia standardizzata per addestrare e servire in modo efficiente i Code LLM, nonché funzionalità dati come parser specifici per linguaggio e funzioni di utilità per estrarre attributi del codice. In questo articolo, descriviamo i principi di design, l'architettura, i moduli e i componenti chiave, e confrontiamo CodeTF con altri strumenti di libreria correlati. Infine, speriamo che CodeTF possa colmare il divario tra machine learning/intelligenza artificiale generativa e ingegneria del software, fornendo una soluzione open-source completa per sviluppatori, ricercatori e professionisti.
I Transformer sono al centro dei recenti successi nel campo dell'elaborazione del linguaggio naturale e della visione artificiale. I Transformer presentano una struttura prevalentemente uniforme, in cui i livelli si alternano tra feed-forward e self-attention per costruire una rete profonda. In questo lavoro, esploriamo questa scelta progettuale e scopriamo che blocchi più complessi, con diverse permutazioni di primitive di livello, possono essere più efficienti. Sfruttando questa intuizione, sviluppiamo un blocco complesso, denominato Brainformer, che consiste in un insieme diversificato di livelli, come livelli feed-forward a gate sparsi, livelli feed-forward densi, livelli di attenzione e varie forme di normalizzazione di livello e funzioni di attivazione. Brainformer supera costantemente i Transformer densi e sparsi allo stato dell'arte, sia in termini di qualità che di efficienza. Un modello Brainformer con 8 miliardi di parametri attivati per token dimostra una convergenza dell'addestramento 2 volte più veloce e un tempo di passo 5 volte più rapido rispetto alla sua controparte GLaM. Nella valutazione delle attività downstream, Brainformer mostra anche un punteggio SuperGLUE superiore del 3% con fine-tuning rispetto a GLaM, con un numero simile di parametri attivati. Infine, Brainformer supera ampiamente un modello denso Primer derivato con NAS con un calcolo simile per token nelle valutazioni few-shot.
I modelli di diffusione condizionati dal testo sono in grado di generare immagini ad alta fedeltà con contenuti diversificati. Tuttavia, le rappresentazioni linguistiche spesso presentano descrizioni ambigue dell'immagine obiettivo immaginata, richiedendo l'incorporazione di segnali di controllo aggiuntivi per rafforzare l'efficacia dei modelli di diffusione guidati dal testo. In questo lavoro, proponiamo Cocktail, una pipeline per miscelare varie modalità in un unico embedding, combinata con un ControlNet generalizzato (gControlNet), una normalizzazione controllabile (ControlNorm) e un metodo di campionamento con guida spaziale, per realizzare un controllo multi-modale e raffinato spazialmente per i modelli di diffusione condizionati dal testo. Nello specifico, introduciamo un iper-rete gControlNet, dedicato all'allineamento e all'infusione dei segnali di controllo provenienti da modalità disparate nel modello di diffusione pre-addestrato. gControlNet è in grado di accettare segnali di modalità flessibili, comprendendo la ricezione simultanea di qualsiasi combinazione di segnali di modalità, o la fusione supplementare di più segnali di modalità. I segnali di controllo vengono quindi fusi e iniettati nel modello principale secondo la nostra proposta ControlNorm. Inoltre, la nostra metodologia avanzata di campionamento con guida spaziale incorpora in modo proficuo il segnale di controllo nella regione designata, evitando così la manifestazione di oggetti indesiderati all'interno dell'immagine generata. Dimostriamo i risultati del nostro metodo nel controllo di varie modalità, dimostrando una sintesi di alta qualità e fedeltà a più segnali esterni.
Gli approcci basati su modelli di diffusione hanno dimostrato potenziale nella pianificazione guidata dai dati, ma non offrono garanzie di sicurezza, rendendo difficile la loro applicazione in contesti critici. Per affrontare queste sfide, proponiamo un nuovo metodo, chiamato SafeDiffuser, che assicura che i modelli probabilistici di diffusione soddisfino specifiche utilizzando una classe di funzioni barriera di controllo. L'idea chiave del nostro approccio è incorporare l'invarianza di diffusione a tempo finito proposta nel processo di denoising della diffusione, consentendo una generazione di dati affidabile. Inoltre, dimostriamo che il nostro metodo di invarianza di diffusione a tempo finito attraverso modelli generativi non solo mantiene le prestazioni di generalizzazione, ma crea anche robustezza nella generazione di dati sicuri. Testiamo il nostro metodo su una serie di compiti di pianificazione sicura, tra cui la generazione di percorsi in labirinti, la locomozione di robot a gambe e la manipolazione in spazio 3D, con risultati che mostrano i vantaggi in termini di robustezza e garanzie rispetto ai modelli di diffusione tradizionali.
Presentiamo il Benchmark ObjectFolder, una suite di 10 task per l'apprendimento multisensoriale centrato sugli oggetti, focalizzato su riconoscimento, ricostruzione e manipolazione degli oggetti attraverso vista, udito e tatto. Introduciamo inoltre il dataset ObjectFolder Real, che include misurazioni multisensoriali per 100 oggetti domestici del mondo reale, basandoci su una pipeline appositamente progettata per raccogliere mesh 3D, video, suoni d'impatto e letture tattili di oggetti reali. Eseguiamo un benchmarking sistematico sia sui 1.000 oggetti neurali multisensoriali di ObjectFolder, sia sui dati multisensoriali reali di ObjectFolder Real. I nostri risultati dimostrano l'importanza della percezione multisensoriale e rivelano i rispettivi ruoli della visione, dell'audio e del tatto per diversi task di apprendimento centrato sugli oggetti. Rendendo pubblici il nostro dataset e la suite di benchmark, speriamo di catalizzare e abilitare nuove ricerche nell'apprendimento multisensoriale centrato sugli oggetti nel campo della visione artificiale, della robotica e oltre. Pagina del progetto: https://objectfolder.stanford.edu