Articoli di ricerca IA selezionati quotidianamente con traduzioni
Le grandi reti neurali dedicano la maggior parte della computazione alle moltiplicazioni di tensori in virgola mobile. In questo lavoro, scopriamo che un moltiplicatore in virgola mobile può essere approssimato da un addizionatore intero con alta precisione. Proponiamo l'algoritmo di moltiplicazione a complessità lineare L-Mul che approssima la moltiplicazione di numeri in virgola mobile con operazioni di addizione intera. Il nuovo algoritmo richiede significativamente meno risorse computazionali rispetto alla moltiplicazione in virgola mobile a 8 bit, ma raggiunge una maggiore precisione. Rispetto alle moltiplicazioni in virgola mobile a 8 bit, il metodo proposto raggiunge una maggiore precisione ma consuma significativamente meno computazione a livello di bit. Poiché moltiplicare numeri in virgola mobile richiede un'energia notevolmente maggiore rispetto alle operazioni di addizione intera, l'applicazione dell'operazione L-Mul sull'hardware di elaborazione dei tensori può potenzialmente ridurre del 95% il costo energetico delle moltiplicazioni di tensori in virgola mobile elemento per elemento e dell'80% il costo energetico dei prodotti scalari. Abbiamo calcolato l'aspettativa di errore teorico di L-Mul e valutato l'algoritmo su una vasta gamma di compiti testuali, visivi e simbolici, inclusi la comprensione del linguaggio naturale, il ragionamento strutturale, la matematica e la risposta a domande di buon senso. I nostri esperimenti di analisi numerica concordano con la stima teorica dell'errore, che indica che L-Mul con mantissa a 4 bit raggiunge una precisione comparabile alle moltiplicazioni float8_e4m3, e L-Mul con mantissa a 3 bit supera float8_e5m2. I risultati della valutazione su benchmark popolari mostrano che l'applicazione diretta di L-Mul al meccanismo di attenzione è quasi priva di perdite. Mostriamo inoltre che sostituire tutte le moltiplicazioni in virgola mobile con L-Mul a mantissa a 3 bit in un modello trasformatore raggiunge una precisione equivalente all'utilizzo di float8_e4m3 come precisione di accumulazione sia nel raffinamento che nell'inferenza.
I recenti progressi sia nell'apprendimento della rappresentazione che nell'apprendimento della funzione hanno dimostrato un notevole potenziale in diversi ambiti dell'intelligenza artificiale. Tuttavia, l'integrazione efficace di questi paradigmi pone una sfida significativa, specialmente nei casi in cui gli utenti devono decidere manualmente se applicare un modello di apprendimento della rappresentazione o della funzione in base alle caratteristiche del dataset. Per affrontare questo problema, introduciamo MLP-KAN, un metodo unificato progettato per eliminare la necessità di selezione manuale del modello. Integrando i Perceptron a Strati Multipli (MLP) per l'apprendimento della rappresentazione e le Reti di Kolmogorov-Arnold (KAN) per l'apprendimento della funzione all'interno di un'architettura Mixture-of-Experts (MoE), MLP-KAN si adatta dinamicamente alle specifiche caratteristiche del compito in questione, garantendo prestazioni ottimali. Incorporato in un framework basato su transformer, il nostro lavoro ottiene risultati notevoli su quattro dataset ampiamente utilizzati in diversi ambiti. Un'ampia valutazione sperimentale dimostra la sua superiore versatilità, offrendo prestazioni competitive sia nell'apprendimento della rappresentazione profonda che della funzione. Queste scoperte evidenziano il potenziale di MLP-KAN nel semplificare il processo di selezione del modello, offrendo una soluzione completa ed adattabile in vari ambiti. Il nostro codice e i pesi sono disponibili su https://github.com/DLYuanGod/MLP-KAN.
L'Intelligenza Artificiale Generativa, in particolare i Modelli Linguistici (LM), ha il potenziale per trasformare settori del mondo reale con impatto sociale, specialmente dove l'accesso agli esperti è limitato. Ad esempio, nell'ambito dell'istruzione, formare educatori alle prime armi con la guida di esperti è importante per l'efficacia ma costoso, creando significative barriere per migliorare la qualità dell'istruzione su larga scala. Questa sfida danneggia in modo sproporzionato gli studenti delle comunità svantaggiate, che trarrebbero il maggior beneficio da un'istruzione di alta qualità. Presentiamo Tutor CoPilot, un nuovo approccio Umano-AI che sfrutta un modello di pensiero esperto per fornire una guida simile a quella degli esperti ai tutor durante le lezioni. Questo studio è il primo trial controllato randomizzato di un sistema Umano-AI in sessioni di tutoring dal vivo, coinvolgendo 900 tutor e 1.800 studenti delle scuole elementari e medie provenienti da comunità storicamente svantaggiate. Seguendo un piano di analisi preregistrato, scopriamo che gli studenti che lavorano con tutor che hanno accesso a Tutor CoPilot hanno il 4% in più di probabilità di padroneggiare gli argomenti (p<0.01). In particolare, gli studenti dei tutor con valutazioni più basse hanno ottenuto il maggior beneficio, migliorando il livello di padronanza del 9%. Troviamo che Tutor CoPilot costa solo $20 per tutor all'anno. Analizziamo oltre 550.000 messaggi utilizzando classificatori per identificare strategie pedagogiche e scopriamo che i tutor con accesso a Tutor CoPilot sono più propensi a utilizzare strategie di alta qualità per favorire la comprensione degli studenti (ad esempio, porre domande guida) e meno propensi a fornire direttamente la risposta agli studenti. Le interviste ai tutor evidenziano come la guida di Tutor CoPilot aiuti i tutor a rispondere alle esigenze degli studenti, anche se segnalano problemi in Tutor CoPilot, come la generazione di suggerimenti non appropriati per il livello di grado. Nel complesso, il nostro studio su Tutor CoPilot dimostra come i sistemi Umano-AI possano diffondere l'esperienza in settori del mondo reale, colmare lacune nelle competenze e creare un futuro in cui un'istruzione di alta qualità sia accessibile a tutti gli studenti.
Gli elementi non necessari nel contesto dell'attenzione degradano le prestazioni. Introduciamo l'Attenzione Selettiva, una semplice modifica priva di parametri al meccanismo standard di attenzione che riduce l'attenzione agli elementi non necessari. L'Attenzione Selettiva migliora le prestazioni del language modeling in una varietà di dimensioni di modello e lunghezze del contesto. Ad esempio, una serie di trasformatori addestrati con l'obiettivo del language modeling su C4 con attenzione selettiva si comportano in modo equivalente ai trasformatori standard con circa il doppio di testate e parametri nei loro moduli di attenzione. L'Attenzione Selettiva consente anche di ridurre le dimensioni del buffer del contesto dell'attenzione, portando a riduzioni significative nei requisiti di memoria e calcolo durante l'inferenza. Ad esempio, i trasformatori con 100M di parametri addestrati su C4 con dimensioni di contesto di 512, 1.024 e 2.048 richiedono rispettivamente 16X, 25X e 47X meno memoria per il loro modulo di attenzione quando dotati di attenzione selettiva, rispetto a quelli senza attenzione selettiva, con la stessa perplessità di convalida.
Un bot basato su un Modello di Linguaggio Visivo (VLM) ci avvertirà di scivolare se rileva un pavimento bagnato? I recenti VLM hanno dimostrato capacità impressionanti, tuttavia la loro abilità di inferire risultati e cause rimane poco esplorata. Per affrontare questo problema, presentiamo NL-Eye, un benchmark progettato per valutare le capacità di ragionamento abduttivo visuale dei VLM. NL-Eye adatta il compito abduttivo di Inferenza di Linguaggio Naturale (NLI) al dominio visivo, richiedendo ai modelli di valutare la plausibilità di immagini ipotetiche basate su un'immagine di premessa e spiegare le loro decisioni. NL-Eye è composto da 350 esempi tripletti accuratamente selezionati (1.050 immagini) che coprono diverse categorie di ragionamento: fisico, funzionale, logico, emotivo, culturale e sociale. Il processo di cura dei dati ha coinvolto due fasi - la scrittura di descrizioni testuali e la generazione di immagini utilizzando modelli testo-immagine, entrambi richiedendo un notevole coinvolgimento umano per garantire scene di alta qualità e sfidanti. I nostri esperimenti mostrano che i VLM faticano significativamente su NL-Eye, spesso esibendosi a livelli di base casuali, mentre gli esseri umani eccellono sia nella previsione della plausibilità che nella qualità delle spiegazioni. Ciò dimostra una carenza nelle capacità di ragionamento abduttivo dei moderni VLM. NL-Eye rappresenta un passo cruciale verso lo sviluppo di VLM capaci di un robusto ragionamento multimodale per applicazioni reali, inclusi bot per la prevenzione degli incidenti e la verifica video generata.
Mamba, un caso speciale del Modello dello Spazio di Stati, sta guadagnando popolarità come alternativa agli approcci di apprendimento profondo basati su modelli predefiniti nell'analisi delle immagini mediche. Sebbene i trasformatori siano architetture potenti, presentano svantaggi, tra cui complessità computazionale quadratica e incapacità di gestire efficientemente dipendenze a lungo raggio. Questa limitazione influisce sull'analisi di set di dati medici ampi e complessi, in cui sono presenti molte relazioni spaziali e temporali. Al contrario, Mamba offre vantaggi che lo rendono particolarmente adatto all'analisi delle immagini mediche. Ha complessità temporale lineare, che rappresenta un significativo miglioramento rispetto ai trasformatori. Mamba elabora sequenze più lunghe senza meccanismi di attenzione, consentendo un'inferezza più veloce e richiedendo meno memoria. Mamba dimostra inoltre elevate prestazioni nel fusione di dati multimodali, migliorando l'accuratezza diagnostica e gli esiti per i pazienti. L'organizzazione di questo articolo consente ai lettori di apprezzare le capacità di Mamba nell'analisi delle immagini mediche passo dopo passo. Iniziamo definendo i concetti fondamentali dei Modelli dello Spazio di Stati e dei modelli, inclusi S4, S5 e S6, seguiti dall'esplorazione delle architetture di Mamba come Mamba puro, varianti U-Net e modelli ibridi con reti neurali convoluzionali, trasformatori e Reti Neurali Grafiche. Trattiamo inoltre ottimizzazioni di Mamba, tecniche e adattamenti, scansione, set di dati, applicazioni, risultati sperimentali e concludiamo con le sfide e le future direzioni nell'analisi delle immagini mediche. Questa recensione mira a dimostrare il potenziale trasformativo di Mamba nel superare le barriere esistenti nell'analisi delle immagini mediche aprendo la strada a innovativi progressi nel settore. Una lista completa delle architetture di Mamba applicate nel campo medico, esaminate in questo lavoro, è disponibile su Github.
I modelli auto-regressivi attuali possono generare immagini di alta qualità e ad alta risoluzione, ma richiedono centinaia o addirittura migliaia di passaggi di previsione del token successivo durante l'inferenza, comportando un notevole consumo di tempo. Negli studi esistenti, la decodifica di Jacobi, un algoritmo di decodifica iterativo parallelo, è stato utilizzato per accelerare la generazione auto-regressiva e può essere eseguito senza addestramento. Tuttavia, la decodifica di Jacobi si basa su un criterio deterministico per determinare la convergenza delle iterazioni. Pertanto, funziona per la decodifica greedy ma è incompatibile con la decodifica basata su campionamento, che è cruciale per la qualità visiva e la diversità nella generazione attuale di testo-immagine auto-regressivo. In questo articolo, proponiamo un algoritmo di decodifica parallelo probabilistico senza addestramento, Decodifica Jacobi Speculativa (SJD), per accelerare la generazione auto-regressiva di testo-immagine. Introducendo un criterio di convergenza probabilistico, il nostro SJD accelera l'inferenza della generazione auto-regressiva di testo-immagine mantenendo l'aleatorietà nella decodifica del token basata su campionamento e consentendo al modello di generare immagini diverse. In particolare, SJD facilita il modello a prevedere più token ad ogni passaggio e accetta i token in base al criterio probabilistico, consentendo al modello di generare immagini con meno passaggi rispetto al paradigma convenzionale di previsione del token successivo. Esaminiamo anche le strategie di inizializzazione del token che sfruttano la località spaziale dei dati visivi per migliorare ulteriormente il rapporto di accelerazione in scenari specifici. Conduciamo esperimenti per il nostro SJD proposto su diversi modelli di generazione auto-regressiva di testo-immagine, dimostrando l'efficacia dell'accelerazione del modello senza sacrificare la qualità visiva.
La generazione di texture da testo ha recentemente attirato crescente attenzione, ma i metodi esistenti spesso soffrono di problemi di incongruenze di visualizzazione, cuciture apparenti e disallineamento tra le texture e la mesh sottostante. In questo articolo, proponiamo un metodo robusto di generazione di texture da testo per creare texture coerenti e senza soluzione di continuità che siano ben allineate con la mesh. Il nostro metodo sfrutta modelli di diffusione 2D all'avanguardia, tra cui SDXL e più ControlNets, per catturare le caratteristiche strutturali e i dettagli intricati nelle texture generate. Il metodo impiega inoltre una strategia di sintesi della vista simmetrica combinata con prompt regionali per migliorare la coerenza della visualizzazione. Inoltre, introduce nuove tecniche di fusione delle texture e soft-inpainting, che riducono significativamente le regioni di cucitura. Estesi esperimenti dimostrano che il nostro metodo supera i metodi all'avanguardia esistenti.
L'eliminazione concettuale nei modelli linguistici ha tradizionalmente mancato di un quadro di valutazione completo, portando a valutazioni incomplete dell'efficacia dei metodi di cancellazione. Proponiamo un paradigma di valutazione incentrato su tre criteri critici: innocenza (rimozione completa della conoscenza), fluidità (mantenimento della generazione condizionale fluente) e specificità (preservazione delle prestazioni non correlate al compito). Le nostre metriche di valutazione motivano naturalmente lo sviluppo di Erasure of Language Memory (ELM), un nuovo metodo progettato per affrontare tutte e tre le dimensioni. ELM utilizza aggiornamenti mirati a basso rango per modificare le distribuzioni di output per i concetti eliminati, preservando nel complesso le capacità del modello, inclusa la fluidità quando richiesto per un concetto eliminato. Dimostriamo l'efficacia di ELM nelle attività di eliminazione nel dominio della biosecurity, della cybersecurity e letterario. L'analisi comparativa mostra che ELM raggiunge prestazioni superiori secondo le nostre metriche proposte, inclusi punteggi quasi casuali nelle valutazioni dei temi eliminati, fluidità di generazione, accuratezza mantenuta su benchmark non correlati e robustezza agli attacchi avversari. Il nostro codice, i dati e i modelli addestrati sono disponibili su https://elm.baulab.info
La navigazione dei robot nella vita reale implica molto più che raggiungere una destinazione; richiede di ottimizzare i movimenti affrontando obiettivi specifici dello scenario. Un modo intuitivo per gli esseri umani esprimere questi obiettivi è attraverso segnali astratti come comandi verbali o bozzetti approssimativi. Tale guida umana potrebbe mancare di dettagli o essere rumorosa. Tuttavia, ci aspettiamo che i robot navighino come previsto. Affinché i robot interpretino ed eseguano queste istruzioni astratte in linea con le aspettative umane, devono condividere una comprensione comune dei concetti di base della navigazione con gli esseri umani. A questo scopo, presentiamo CANVAS, un nuovo framework che combina istruzioni visive e linguistiche per la navigazione consapevole del senso comune. Il suo successo è guidato dall'apprendimento per imitazione, consentendo al robot di apprendere dal comportamento di navigazione umano. Presentiamo COMMAND, un dataset esaustivo con risultati di navigazione annotati dagli umani, che copre oltre 48 ore e 219 km, progettato per addestrare sistemi di navigazione consapevoli del senso comune in ambienti simulati. I nostri esperimenti mostrano che CANVAS supera il forte sistema basato su regole ROS NavStack in tutti gli ambienti, dimostrando prestazioni superiori con istruzioni rumorose. In particolare, nell'ambiente dell'orto, dove ROS NavStack registra un tasso di successo totale del 0%, CANVAS raggiunge un tasso di successo totale del 67%. CANVAS si allinea anche strettamente con le dimostrazioni umane e i vincoli del senso comune, anche in ambienti non visti in precedenza. Inoltre, il dispiegamento del mondo reale di CANVAS mostra un impressionante trasferimento Sim2Real con un tasso di successo totale del 69%, evidenziando il potenziale dell'apprendimento dalle dimostrazioni umane in ambienti simulati per applicazioni del mondo reale.
I recenti progressi nei Grandi Modelli Linguistici per il Codice (CodeLLMs) si sono principalmente concentrati su compiti di generazione di codice aperto, trascurando spesso l'aspetto critico della comprensione del codice. Per colmare questa lacuna, presentiamo CodeMMLU, un ampio benchmark di domande a scelta multipla progettato per valutare la profondità della comprensione del software e del codice nei LLMs. CodeMMLU include oltre 10.000 domande provenienti da domini diversi, che comprendono compiti come l'analisi del codice, la rilevazione dei difetti e i principi dell'ingegneria del software in diversi linguaggi di programmazione. A differenza dei benchmark tradizionali, CodeMMLU valuta la capacità dei modelli di ragionare sul codice anziché semplicemente generarlo, fornendo approfondimenti più dettagliati sulla loro comprensione dei concetti e dei sistemi software complessi. La nostra approfondita valutazione rivela che anche i modelli all'avanguardia affrontano sfide significative con CodeMMLU, evidenziando carenze nella comprensione al di là della generazione di codice. Sottolineando il rapporto cruciale tra la comprensione del codice e la generazione efficace, CodeMMLU si configura come una risorsa fondamentale per far progredire lo sviluppo software assistito dall'IA, con l'obiettivo finale di creare assistenti alla codifica più affidabili e capaci.
Il Fill-in-the-Middle (FIM) è diventato essenziale per i modelli di linguaggio di codice, consentendo la generazione di codice mancante dati contesti sia a sinistra che a destra. Tuttavia, il paradigma attuale di addestramento FIM, che riordina le sequenze di addestramento originali e poi esegue regolarmente la previsione del prossimo token (NTP), porta spesso i modelli a faticare nella generazione di contenuti che si allineano in modo fluido con il contesto circostante. In modo cruciale, mentre i lavori esistenti si basano su un post-processing basato su regole per aggirare questa debolezza, tali metodi non sono praticamente utilizzabili in compiti di completamento del codice in un dominio aperto poiché dipendono da assunzioni restrittive e specifiche del dataset (ad esempio, generando lo stesso numero di righe del ground truth). Inoltre, le prestazioni del modello nei compiti FIM peggiorano significativamente senza queste assunzioni irrealistiche. Ipotizziamo che la sola NTP non sia sufficiente affinché i modelli imparino una pianificazione efficace condizionata al contesto a destra distante, un fattore critico per un riempimento di codice di successo. Per superare ciò, proponiamo la Predizione della Lunghezza dell'Orizzonte (HLP), un nuovo obiettivo di addestramento che insegna ai modelli a prevedere il numero di token intermedi rimanenti (cioè, la lunghezza dell'orizzonte) ad ogni passo. HLP fa progredire il FIM con una pianificazione di previsione, consentendo ai modelli di imparare in modo innato i confini di riempimento per contesti arbitrari a sinistra e a destra senza dipendere da un post-processing specifico del dataset. La nostra valutazione su diversi modelli e dimensioni mostra che HLP migliora significativamente le prestazioni del FIM fino al 24% relativamente su diversi benchmark, a livello di file e di repository, e senza ricorrere a metodi di post-processing irrealistici. Inoltre, la capacità di pianificazione potenziata acquisita attraverso HLP migliora le prestazioni del modello nel ragionamento del codice. È importante sottolineare che HLP comporta solo un sovraccarico di addestramento trascurabile e nessun costo aggiuntivo di inferenza, garantendo la sua praticità per scenari reali.
La previsione del mercato azionario è rimasta un problema estremamente impegnativo per molte decadi a causa della sua intrinseca alta volatilità e basso rapporto rumoroso di informazioni. Le soluzioni esistenti basate sull'apprendimento automatico o sul deep learning dimostrano prestazioni superiori impiegando un singolo modello addestrato sull'intero dataset azionario per generare previsioni su tutti i tipi di azioni. Tuttavia, a causa delle significative variazioni nello stile delle azioni e nelle tendenze di mercato, un singolo modello end-to-end fatica a catturare appieno le differenze in queste caratteristiche stilizzate delle azioni, portando a previsioni relativamente inaccurate per tutti i tipi di azioni. In questo articolo, presentiamo MIGA, un nuovo framework Mixture of Expert con aggregazione di gruppo progettato per generare previsioni specializzate per azioni con stili diversi passando dinamicamente tra esperti di stili distinti. Per promuovere la collaborazione tra diversi esperti in MIGA, proponiamo un'innovativa architettura di attenzione interna di gruppo, consentendo agli esperti dello stesso gruppo di condividere informazioni e migliorare così le prestazioni complessive di tutti gli esperti. Di conseguenza, MIGA supera significativamente altri modelli end-to-end su tre benchmark degli indici azionari cinesi tra cui CSI300, CSI500 e CSI1000. In particolare, MIGA-Conv raggiunge un rendimento annuo eccedente del 24% sul benchmark CSI300, superando il modello precedente all'avanguardia del 8% in termini assoluti. Inoltre, conduciamo un'analisi esaustiva del mixture of experts per la previsione del mercato azionario, fornendo preziose intuizioni per la ricerca futura.
Nonostante l'ascesa alla predominanza del deep learning nei domini dei dati non strutturati, i metodi basati su alberi come Random Forests (RF) e Gradient Boosted Decision Trees (GBDT) rimangono ancora i pilastri per gestire compiti discriminativi su dati tabulari. Esploriamo estensioni generative di questi algoritmi popolari con un focus sulla modellazione esplicita della densità dei dati (fino a una costante di normalizzazione), consentendo così altre applicazioni oltre al campionamento. Come principale contributo proponiamo un algoritmo di boosting generativo basato sull'energia che è analogo al boosting di secondo ordine implementato in pacchetti popolari come XGBoost. Dimostriamo che, nonostante produca un modello generativo in grado di gestire compiti di inferenza su qualsiasi variabile di input, il nostro algoritmo proposto può raggiungere prestazioni discriminative simili a GBDT su diversi dataset tabulari del mondo reale, superando approcci generativi alternativi. Allo stesso tempo, dimostriamo che è anche competitivo con modelli basati su reti neurali per il campionamento.
La sottotitolazione dettagliata dei video è un compito fondamentale che mira a generare descrizioni testuali esaustive e coerenti dei contenuti video, beneficiando sia della comprensione che della generazione dei video. In questo articolo, proponiamo AuroraCap, un sottotitolatore video basato su un ampio modello multimodale. Seguiamo il design architetturale più semplice senza parametri aggiuntivi per la modellazione temporale. Per affrontare il sovraccarico causato dalle lunghe sequenze video, implementiamo la strategia di fusione dei token, riducendo il numero di token visivi in ingresso. Sorprendentemente, abbiamo scoperto che questa strategia comporta una perdita di prestazioni limitata. AuroraCap mostra prestazioni superiori su vari benchmark di sottotitolazione video e immagini, ottenendo ad esempio un CIDEr di 88.9 su Flickr30k, superando GPT-4V (55.3) e Gemini-1.5 Pro (82.2). Tuttavia, i benchmark esistenti per la sottotitolazione video includono solo descrizioni semplici, composte da poche dozzine di parole, il che limita la ricerca in questo campo. Pertanto, sviluppiamo VDC, un benchmark per la sottotitolazione dettagliata dei video con oltre mille descrizioni strutturate annotate con cura. Inoltre, proponiamo una nuova metrica assistita da LLM, VDCscore, per migliorare la valutazione, che adotta una strategia divide et impera per trasformare la valutazione delle lunghe descrizioni in molteplici coppie domanda-risposta brevi. Con l'aiuto della classifica Elo umana, i nostri esperimenti mostrano che questo benchmark correla meglio con i giudizi umani sulla qualità della sottotitolazione dettagliata dei video.
La simulazione robotica oggi rimane difficile da scalare a causa degli sforzi umani necessari per creare diverse attività e scenari di simulazione. Le politiche addestrate tramite simulazione affrontano anche problemi di scalabilità poiché molti metodi sim-to-real si concentrano su un singolo compito. Per affrontare queste sfide, questo lavoro propone GenSim2, un framework scalabile che sfrutta i modelli di linguaggio con codifica (LLM) con capacità multi-modalità e di ragionamento per la creazione di compiti di simulazione complessi e realistici, inclusi compiti a lungo termine con oggetti articolati. Per generare automaticamente dati dimostrativi per questi compiti su larga scala, proponiamo risolutori di pianificazione e RL che generalizzano all'interno delle categorie di oggetti. Il processo può generare dati per un massimo di 100 compiti articolati con 200 oggetti e ridurre gli sforzi umani richiesti. Per utilizzare tali dati, proponiamo un'efficace architettura di politica condizionata al linguaggio multi-task, denominata trasformatore di nuvola di punti propriocettivi (PPT), che apprende dalle dimostrazioni generate e mostra una forte trasferibilità zero-shot da simulazione a realtà. Combinando il processo proposto e l'architettura della politica, mostriamo un uso promettente di GenSim2 in cui i dati generati possono essere utilizzati per il trasferimento zero-shot o per il co-addestramento con dati raccolti nel mondo reale, migliorando le prestazioni della politica del 20% rispetto all'addestramento esclusivamente su dati reali limitati.