Articoli di ricerca IA selezionati quotidianamente con traduzioni
La sintesi di contenuti visivi che soddisfino le esigenze degli utenti richiede spesso un controllo flessibile e preciso della posa, della forma, dell'espressione e del layout degli oggetti generati. Gli approcci esistenti ottengono il controllo delle reti generative avversarie (GAN) attraverso dati di addestramento annotati manualmente o un modello 3D preesistente, che spesso mancano di flessibilità, precisione e generalità. In questo lavoro, studiamo un metodo potente ma molto meno esplorato per controllare le GAN, ovvero "trascinare" qualsiasi punto dell'immagine per raggiungere con precisione punti target in modo interattivo per l'utente, come mostrato in Fig.1. Per raggiungere questo obiettivo, proponiamo DragGAN, che consiste in due componenti principali: 1) una supervisione del movimento basata su feature che spinge il punto di manipolazione a muoversi verso la posizione target, e 2) un nuovo approccio di tracciamento dei punti che sfrutta le feature discriminative del generatore per localizzare continuamente la posizione dei punti di manipolazione. Attraverso DragGAN, chiunque può deformare un'immagine con un controllo preciso su dove vanno i pixel, manipolando così la posa, la forma, l'espressione e il layout di categorie diverse come animali, automobili, esseri umani, paesaggi, ecc. Poiché queste manipolazioni vengono eseguite sulla varietà generativa appresa di una GAN, tendono a produrre output realistici anche per scenari complessi come l'allucinazione di contenuti occlusi e la deformazione di forme che seguono coerentemente la rigidità dell'oggetto. Sia i confronti qualitativi che quantitativi dimostrano il vantaggio di DragGAN rispetto agli approcci precedenti nei compiti di manipolazione delle immagini e tracciamento dei punti. Mostriamo inoltre la manipolazione di immagini reali attraverso l'inversione delle GAN.
I modelli linguistici vengono sempre più utilizzati per la risoluzione generale di problemi in un'ampia gamma di compiti, ma sono ancora limitati a processi decisionali a livello di token, da sinistra a destra, durante l'inferenza. Ciò significa che possono risultare carenti in compiti che richiedono esplorazione, previsione strategica o in cui le decisioni iniziali svolgono un ruolo cruciale. Per superare queste sfide, introduciamo un nuovo framework per l'inferenza dei modelli linguistici, Tree of Thoughts (ToT), che generalizza il popolare approccio Chain of Thought per il prompting dei modelli linguistici e consente l'esplorazione di unità di testo coerenti (pensieri) che fungono da passaggi intermedi verso la risoluzione dei problemi. ToT permette ai modelli linguistici di effettuare decisioni ponderate considerando percorsi di ragionamento multipli e autovalutando le scelte per decidere il corso d'azione successivo, oltre a prevedere o tornare indietro quando necessario per compiere scelte globali. I nostri esperimenti dimostrano che ToT migliora significativamente le capacità di problem solving dei modelli linguistici in tre nuovi compiti che richiedono pianificazione o ricerca non banale: Game of 24, Scrittura Creativa e Mini Cruciverba. Ad esempio, in Game of 24, mentre GPT-4 con prompting a catena di pensieri ha risolto solo il 4% dei compiti, il nostro metodo ha raggiunto un tasso di successo del 74%. Repository del codice con tutti i prompt: https://github.com/ysymyth/tree-of-thought-llm.
Questo articolo di ricerca propone un modello di diffusione latente per il 3D (LDM3D) che genera sia immagini che mappe di profondità a partire da un prompt testuale, consentendo agli utenti di creare immagini RGBD da descrizioni testuali. Il modello LDM3D viene ottimizzato su un dataset di tuple contenenti un'immagine RGB, una mappa di profondità e una didascalia, e viene validato attraverso esperimenti approfonditi. Abbiamo inoltre sviluppato un'applicazione chiamata DepthFusion, che utilizza le immagini RGB e le mappe di profondità generate per creare esperienze immersive e interattive a 360 gradi utilizzando TouchDesigner. Questa tecnologia ha il potenziale di trasformare una vasta gamma di settori, dall'intrattenimento e dai giochi all'architettura e al design. Nel complesso, questo articolo rappresenta un contributo significativo nel campo dell'IA generativa e della visione artificiale, e dimostra il potenziale di LDM3D e DepthFusion di rivoluzionare la creazione di contenuti e le esperienze digitali. Un breve video che riassume l'approccio è disponibile all'indirizzo https://t.ly/tdi2.
Introduciamo OpenShape, un metodo per apprendere rappresentazioni congiunte multimodali di testo, immagini e nuvole di punti. Adottiamo il framework comunemente utilizzato per l'apprendimento contrastivo multimodale per l'allineamento delle rappresentazioni, ma con un focus specifico sullo scalare le rappresentazioni 3D per abilitare la comprensione di forme 3D in un contesto open-world. Per raggiungere questo obiettivo, aumentiamo i dati di training aggregando più dataset 3D e proponiamo diverse strategie per filtrare e arricchire automaticamente descrizioni testuali rumorose. Esploriamo e confrontiamo inoltre strategie per scalare le reti di backbone 3D e introduciamo un modulo innovativo di hard negative mining per un training più efficiente. Valutiamo OpenShape su benchmark di classificazione zero-shot 3D e dimostriamo le sue capacità superiori per il riconoscimento in contesti open-world. In particolare, OpenShape raggiunge un'accuratezza zero-shot del 46,8% sul benchmark Objaverse-LVIS con 1.156 categorie, rispetto a meno del 10% dei metodi esistenti. OpenShape raggiunge inoltre un'accuratezza dell'85,3% su ModelNet40, superando i precedenti metodi baseline zero-shot del 20% e performando alla pari con alcuni metodi completamente supervisionati. Inoltre, mostriamo che i nostri embedding appresi codificano un'ampia gamma di concetti visivi e semantici (ad esempio, sottocategorie, colore, forma, stile) e facilitano interazioni fine-grained tra testo-3D e immagine-3D. Grazie al loro allineamento con gli embedding CLIP, le nostre rappresentazioni di forme apprese possono anche essere integrate con modelli basati su CLIP pronti all'uso per varie applicazioni, come la generazione di descrizioni per nuvole di punti e la generazione di immagini condizionate da nuvole di punti.
I modelli linguistici multimodali di grandi dimensioni sono considerati un passo cruciale verso l'Intelligenza Artificiale Generale (AGI) e hanno attirato un notevole interesse con l'emergere di ChatGPT. Tuttavia, gli attuali modelli di linguaggio vocale adottano tipicamente il paradigma a cascata, impedendo il trasferimento di conoscenze intermodali. In questo articolo, proponiamo SpeechGPT, un modello linguistico di grandi dimensioni con capacità intrinseche di conversazione cross-modale, in grado di percepire e generare contenuti multimodali. Utilizzando rappresentazioni vocali discrete, costruiamo prima SpeechInstruct, un ampio dataset di istruzioni vocali cross-modali. Inoltre, impieghiamo una strategia di addestramento in tre fasi che include pre-addestramento di adattamento modale, fine-tuning delle istruzioni cross-modali e fine-tuning delle istruzioni a catena di modalità. I risultati sperimentali dimostrano che SpeechGPT ha una notevole capacità di seguire istruzioni umane multimodali e mettono in luce il potenziale di gestione di più modalità con un unico modello. Le demo sono disponibili su https://0nutation.github.io/SpeechGPT.github.io/.
Il raggiungimento dell'autonomia delle macchine e del controllo umano rappresentano spesso obiettivi divergenti nella progettazione di sistemi di intelligenza artificiale interattivi. Modelli generativi visivi di base come Stable Diffusion mostrano potenziale nel bilanciare questi obiettivi, specialmente quando sollecitati con linguaggi arbitrari. Tuttavia, spesso non riescono a generare immagini con controlli spaziali, strutturali o geometrici. L'integrazione di tali controlli, che possono accogliere varie condizioni visive in un unico modello unificato, rimane una sfida irrisolta. In risposta, introduciamo UniControl, un nuovo modello generativo di base che consolida un'ampia gamma di attività controllabili da condizione a immagine (C2I) all'interno di un unico framework, pur consentendo l'uso di prompt linguistici arbitrari. UniControl abilita la generazione di immagini con precisione a livello di pixel, dove le condizioni visive influenzano principalmente le strutture generate e i prompt linguistici guidano lo stile e il contesto. Per dotare UniControl della capacità di gestire diverse condizioni visive, potenziamo modelli di diffusione pre-addestrati da testo a immagine e introduciamo un HyperNet consapevole del compito per modulare i modelli di diffusione, consentendo l'adattamento a diverse attività C2I simultaneamente. Addestrato su nove attività C2I uniche, UniControl dimostra impressionanti capacità di generazione zero-shot con condizioni visive mai viste. I risultati sperimentali mostrano che UniControl spesso supera le prestazioni di metodi controllati a singolo compito con dimensioni del modello comparabili. Questa versatilità di controllo posiziona UniControl come un progresso significativo nel campo della generazione visiva controllabile.
I grandi modelli linguistici (LLM) hanno accelerato significativamente il progresso verso l'intelligenza artificiale generale (AGI), grazie alla loro impressionante capacità zero-shot per attività personalizzate per l'utente, conferendo loro un enorme potenziale in una vasta gamma di applicazioni. Tuttavia, nel campo della visione artificiale, nonostante la disponibilità di numerosi potenti modelli di base per la visione (VFM), questi sono ancora limitati a compiti in una forma predefinita, faticando a eguagliare le capacità aperte e flessibili degli LLM. In questo lavoro, presentiamo un framework basato su LLM per attività centrate sulla visione, denominato VisionLLM. Questo framework offre una prospettiva unificata per i compiti di visione e linguaggio trattando le immagini come una lingua straniera e allineando le attività centrate sulla visione con i compiti linguistici che possono essere definiti e gestiti in modo flessibile utilizzando istruzioni linguistiche. Un decoder basato su LLM può quindi fare previsioni appropriate basate su queste istruzioni per compiti aperti. Esperimenti estesi dimostrano che il VisionLLM proposto può raggiungere diversi livelli di personalizzazione dei compiti attraverso istruzioni linguistiche, dalla personalizzazione a livello di oggetto fine a quella a livello di compito grossolano, tutti con buoni risultati. È degno di nota che, con un framework generalista basato su LLM, il nostro modello può raggiungere oltre il 60\% di mAP su COCO, alla pari con modelli specifici per il rilevamento. Speriamo che questo modello possa stabilire un nuovo punto di riferimento per i modelli generalisti di visione e linguaggio. La demo sarà rilasciata su https://github.com/OpenGVLab/InternGPT. Il codice sarà rilasciato su https://github.com/OpenGVLab/VisionLLM.
I modelli di diffusione hanno attirato un'attenzione crescente per le loro impressionanti capacità di generazione, ma attualmente faticano a produrre testo accurato e coerente. Per affrontare questo problema, introduciamo TextDiffuser, concentrandoci sulla generazione di immagini con testo visivamente accattivante e coerente con gli sfondi. TextDiffuser è composto da due fasi: prima, un modello Transformer genera il layout delle parole chiave estratte dai prompt testuali, e poi i modelli di diffusione generano immagini condizionate dal prompt testuale e dal layout generato. Inoltre, contribuiamo con il primo dataset su larga scala di immagini con testo annotato tramite OCR, MARIO-10M, contenente 10 milioni di coppie immagine-testo con annotazioni di riconoscimento, rilevamento e segmentazione a livello di carattere. Abbiamo inoltre raccolto il benchmark MARIO-Eval per servire come strumento completo per valutare la qualità del rendering del testo. Attraverso esperimenti e studi utente, dimostriamo che TextDiffuser è flessibile e controllabile per creare immagini di testo di alta qualità utilizzando solo prompt testuali o insieme a immagini modello di testo, e per eseguire text inpainting per ricostruire immagini incomplete con testo. Il codice, il modello e il dataset saranno disponibili su https://aka.ms/textdiffuser.
Migliorare la rappresentazione del testo ha attirato molta attenzione per ottenere una sintesi vocale (TTS) più espressiva. Tuttavia, i lavori esistenti apprendono solo implicitamente la prosodia attraverso compiti di ricostruzione di token mascherati, il che porta a una bassa efficienza di addestramento e difficoltà nella modellazione della prosodia. Proponiamo CLAPSpeech, un framework di pre-addestramento contrastivo cross-modale che apprende esplicitamente la variazione prosodica dello stesso token testuale in contesti diversi. Nello specifico, 1) incoraggiamo il modello a collegare il contesto testuale con il corrispondente schema prosodico nello spazio multimodale congiunto, attraverso un design accurato degli input dell'encoder e della funzione di perdita contrastiva; 2) introduciamo una pipeline di pre-addestramento multi-scala per catturare gli schemi prosodici a più livelli. Mostriamo come integrare CLAPSpeech nei modelli TTS esistenti per ottenere una migliore prosodia. Gli esperimenti su tre dataset non solo dimostrano che CLAPSpeech può migliorare la previsione della prosodia per i metodi TTS esistenti, ma evidenziano anche la sua capacità di generalizzazione per adattarsi a più lingue e a TTS multi-speaker. Analizziamo inoltre in profondità il principio alla base delle prestazioni di CLAPSpeech. Studi di ablazione dimostrano la necessità di ciascun componente del nostro metodo. Il codice sorgente e campioni audio sono disponibili su https://clapspeech.github.io.
I modelli di diffusione, come Stable Diffusion, hanno dimostrato prestazioni incredibili nella generazione di immagini da testo. Poiché la generazione di immagini da testo spesso richiede ai modelli di creare concetti visivi con dettagli e attributi specificati in modo granulare nei prompt testuali, possiamo sfruttare le potenti rappresentazioni apprese dai modelli di diffusione pre-addestrati per compiti discriminativi come l'abbinamento immagine-testo? Per rispondere a questa domanda, proponiamo un approccio innovativo, Discriminative Stable Diffusion (DSD), che trasforma i modelli di diffusione pre-addestrati per la generazione di immagini da testo in apprendenti discriminativi few-shot. Il nostro approccio utilizza il punteggio di cross-attention di un modello Stable Diffusion per catturare l'influenza reciproca tra informazioni visive e testuali e affina il modello tramite l'apprendimento di prompt basato sull'attenzione per eseguire l'abbinamento immagine-testo. Confrontando DSD con i metodi all'avanguardia su diversi dataset di benchmark, dimostriamo il potenziale dell'utilizzo di modelli di diffusione pre-addestrati per compiti discriminativi, ottenendo risultati superiori nell'abbinamento immagine-testo few-shot.
Il testo visivo evoca un'immagine nella mente di una persona, mentre il testo non visivo non riesce a farlo. Un metodo per rilevare automaticamente la visualità nel testo sbloccherà la capacità di arricchire il testo con immagini pertinenti, poiché i modelli neurali di generazione e recupero di immagini da testo operano sull'assunzione implicita che il testo in input sia di natura visiva. Abbiamo curato un dataset di 3.620 frasi in inglese e i loro punteggi di visualità forniti da più annotatori umani. Inoltre, utilizziamo documenti che contengono testo e risorse visive per creare un corpus supervisionato a distanza di testo documentale e immagini associate. Proponiamo anche una strategia di fine-tuning che adatta grandi modelli visione-linguaggio come CLIP, che presuppongono una corrispondenza uno-a-uno tra testo e immagine, al compito di valutare la visualità del testo solo dall'input testuale. La nostra strategia prevede la modifica dell'obiettivo di apprendimento contrastivo del modello per mappare il testo identificato come non visivo a un'immagine NULL comune, mentre il testo visivo viene abbinato alle immagini corrispondenti nel documento. Valutiamo l'approccio proposto sulla sua capacità di (i) classificare accuratamente il testo visivo e non visivo, e (ii) focalizzarsi sulle parole identificate come visive negli studi psicolinguistici. La valutazione empirica indica che il nostro approccio performa meglio di diverse euristiche e modelli di base per il compito proposto. Inoltre, per evidenziare l'importanza di modellare la visualità del testo, conduciamo analisi qualitative di sistemi di generazione di immagini da testo come DALL-E.
La generazione di musica simbolica mira a creare note musicali, che possono aiutare gli utenti a comporre musica, come generare tracce strumentali target da zero o basandosi su tracce sorgente fornite dall'utente. Considerando la combinazione diversificata e flessibile tra tracce sorgente e target, è di cruciale importanza disporre di un modello unificato in grado di generare tracce arbitrarie. I lavori precedenti non sono riusciti a soddisfare questa esigenza a causa di vincoli intrinseci nelle rappresentazioni musicali e nelle architetture dei modelli. Per affrontare questa necessità, proponiamo una rappresentazione unificata e un framework di diffusione denominato GETMusic (dove "GET" sta per GEnerate music Tracks), che include una nuova rappresentazione musicale chiamata GETScore e un modello di diffusione chiamato GETDiff. GETScore rappresenta le note come token e le organizza in una struttura 2D, con le tracce disposte verticalmente e che progrediscono orizzontalmente nel tempo. Durante l'addestramento, le tracce vengono selezionate casualmente come target o sorgente. Nel processo in avanti, le tracce target vengono corrompute mascherando i loro token, mentre le tracce sorgente rimangono come verità di base. Nel processo di denoising, GETDiff impara a prevedere i token target mascherati, condizionandoli alle tracce sorgente. Con tracce separate in GETScore e il comportamento non autoregressivo del modello, GETMusic può controllare esplicitamente la generazione di qualsiasi traccia target da zero o condizionandola alle tracce sorgente. Abbiamo condotto esperimenti sulla generazione musicale che coinvolgono sei tracce strumentali, risultando in un totale di 665 combinazioni. GETMusic fornisce risultati di alta qualità in diverse combinazioni e supera i lavori precedenti proposti per alcune combinazioni specifiche.
La rilevazione degli oggetti si è ampliata da un numero limitato di categorie a un vocabolario aperto. Andando avanti, un sistema di visione intelligente completo richiede la comprensione di descrizioni più dettagliate degli oggetti e delle loro parti. In questo articolo, proponiamo un rilevatore in grado di prevedere sia oggetti a vocabolario aperto che la segmentazione delle loro parti. Questa capacità deriva da due progettazioni. Innanzitutto, addestriamo il rilevatore sull'unione di dati a livello di parte, a livello di oggetto e a livello di immagine per costruire l'allineamento multi-granularità tra linguaggio e immagine. In secondo luogo, analizziamo il nuovo oggetto nelle sue parti attraverso la sua corrispondenza semantica densa con l'oggetto base. Queste due progettazioni consentono al rilevatore di trarre vantaggio da varie fonti di dati e modelli di base. Negli esperimenti di segmentazione delle parti a vocabolario aperto, il nostro metodo supera la linea di base di 3,3~7,3 mAP nella generalizzazione cross-dataset su PartImageNet e migliora la linea di base di 7,3 novel AP_{50} nella generalizzazione cross-categoria su Pascal Part. Infine, addestriamo un rilevatore che generalizza a un'ampia gamma di dataset di segmentazione delle parti, ottenendo prestazioni migliori rispetto all'addestramento specifico per dataset.
La valutazione della coerenza fattuale viene spesso condotta utilizzando modelli di Inferenza del Linguaggio Naturale (NLI), tuttavia questi modelli mostrano un successo limitato nella valutazione dei riassunti. Ricerche precedenti hanno migliorato tali modelli utilizzando dati di addestramento sintetici. Tuttavia, i dati sono tipicamente basati su riassunti scritti da esseri umani e modificati, che spesso differiscono nelle loro caratteristiche rispetto ai riassunti generati da modelli reali e hanno una copertura limitata degli errori fattuali possibili. In alternativa, i grandi modelli linguistici (LLM) hanno recentemente mostrato risultati promettenti nella valutazione diretta di compiti generativi, ma sono troppo costosi dal punto di vista computazionale per un uso pratico. Motivati da queste limitazioni, introduciamo TrueTeacher, un metodo per generare dati sintetici annotando riassunti generati da modelli diversi utilizzando un LLM. A differenza dei lavori precedenti, TrueTeacher non si basa su riassunti scritti da esseri umani ed è multilingue per natura. Esperimenti condotti sul benchmark TRUE mostrano che un modello studente addestrato utilizzando i nostri dati supera sostanzialmente sia il modello all'avanguardia con capacità simili, sia il LLM insegnante. In uno studio sistematico, confrontiamo TrueTeacher con i metodi esistenti di generazione di dati sintetici e dimostriamo la sua superiorità e robustezza al cambio di dominio. Utilizzando il dataset mFACE, mostriamo anche che il nostro metodo si generalizza a scenari multilingue. Infine, rilasciamo un ampio dataset sintetico con 1,4 milioni di esempi generati utilizzando TrueTeacher.
Presentiamo il nostro lavoro sullo sviluppo di un trasformatore testo-testo multilingue ed efficiente, adatto a gestire input di grandi dimensioni. Questo modello, denominato mLongT5, si basa sull'architettura di LongT5, sfruttando i dataset multilingue utilizzati per il pretraining di mT5 e le attività di pretraining di UL2. Valutiamo questo modello su una varietà di attività di riassunto multilingue e di risposta alle domande, e i risultati mostrano prestazioni superiori per mLongT5 rispetto a modelli multilingue esistenti come mBART o M-BERT.
Il Transformer pre-addestrato generativo (GPT) ha dimostrato un grande successo nell'elaborazione del linguaggio naturale, e tecniche correlate sono state adattate alla modellazione molecolare. Considerando che il testo rappresenta la principale forma di registrazione per le scoperte scientifiche, in questo articolo proponiamo MolXPT, un modello linguistico unificato di testo e molecole pre-addestrato su SMILES (una rappresentazione sequenziale delle molecole) racchiusi da testo. In breve, rileviamo i nomi delle molecole in ciascuna sequenza e li sostituiamo con i corrispondenti SMILES. In questo modo, gli SMILES possono sfruttare le informazioni dal testo circostante, e viceversa. Le sequenze così modificate, le sequenze di testo provenienti da PubMed e le sequenze di SMILES da PubChem vengono tutte inserite in un modello linguistico per il pre-addestramento. I risultati sperimentali dimostrano che MolXPT supera i forti modelli di riferimento nella previsione delle proprietà molecolari su MoleculeNet, si comporta in modo comparabile al miglior modello nella traduzione testo-molecola utilizzando meno della metà dei suoi parametri, e consente la generazione molecolare zero-shot senza ulteriore addestramento.
Nonostante i notevoli progressi nella generazione di immagini di alta qualità utilizzando modelli di diffusione, la sintesi di una sequenza di frame animati che siano sia fotorealistici che temporalmente coerenti è ancora in una fase iniziale. Mentre sono disponibili dataset su larga scala per la generazione di immagini, raccogliere dati video di dimensioni simili rimane una sfida. Inoltre, addestrare un modello di diffusione video è computazionalmente molto più costoso rispetto alla sua controparte per immagini. In questo lavoro, esploriamo il fine-tuning di un modello di diffusione per immagini pre-addestrato con dati video come soluzione pratica per il compito di sintesi video. Abbiamo riscontrato che estendere semplicemente il rumore delle immagini al rumore video nei modelli di diffusione video porta a prestazioni subottimali. Il nostro rumore video progettato con cura porta a prestazioni significativamente migliori. Una vasta validazione sperimentale dimostra che il nostro modello, Preserve Your Own Correlation (PYoCo), raggiunge risultati SOTA zero-shot nel text-to-video sui benchmark UCF-101 e MSR-VTT. Inoltre, ottiene una qualità di generazione video SOTA sul benchmark su piccola scala UCF-101 con un modello 10 volte più piccolo, utilizzando significativamente meno calcolo rispetto alle tecniche precedenti.
Presentiamo VideoFactory, un framework innovativo per la generazione di video di alta qualità in domini aperti. VideoFactory eccelle nella produzione di video in alta definizione (1376x768), in formato widescreen (16:9) e privi di watermark, offrendo un'esperienza utente coinvolgente. La generazione di video guidata da istruzioni testuali presenta sfide significative, come la modellazione della complessa relazione tra spazio e tempo e la mancanza di dati su larga scala accoppiati testo-video. Approcci precedenti estendono modelli pre-addestrati per la generazione di immagini da testo, aggiungendo moduli di convoluzione/attenzione 1D temporali per la generazione di video. Tuttavia, questi approcci trascurano l'importanza di modellare congiuntamente spazio e tempo, portando inevitabilmente a distorsioni temporali e disallineamenti tra testi e video. In questo articolo, proponiamo un approccio innovativo che rafforza l'interazione tra percezioni spaziali e temporali. In particolare, utilizziamo un meccanismo di cross-attenzione scambiata in finestre 3D che alterna il ruolo di "query" tra blocchi spaziali e temporali, consentendo un rafforzamento reciproco. Per sfruttare appieno le capacità del modello nella generazione di video di alta qualità, abbiamo curato un ampio dataset video chiamato HD-VG-130M. Questo dataset comprende 130 milioni di coppie testo-video provenienti da domini aperti, garantendo caratteristiche di alta definizione, formato widescreen e assenza di watermark. Metriche oggettive e studi utente dimostrano la superiorità del nostro approccio in termini di qualità per fotogramma, correlazione temporale e allineamento testo-video, con margini significativi.
Esaminiamo l'uso di modelli sequenziali basati su transformer come modelli dinamici (TDM) per il controllo. In una serie di esperimenti condotti nel DeepMind control suite, osserviamo che, in primo luogo, i TDM ottengono buoni risultati in un contesto di apprendimento in un singolo ambiente rispetto ai modelli di riferimento. In secondo luogo, i TDM mostrano forti capacità di generalizzazione ad ambienti non visti, sia in un contesto few-shot, in cui un modello generalista viene affinato con piccole quantità di dati provenienti dall'ambiente target, sia in un contesto zero-shot, in cui un modello generalista viene applicato a un ambiente non visto senza ulteriore addestramento. Dimostriamo inoltre che generalizzare le dinamiche del sistema può funzionare molto meglio rispetto a generalizzare direttamente il comportamento ottimale come politica. Ciò rende i TDM un ingrediente promettente per un modello di controllo di base.