Articoli di ricerca IA selezionati quotidianamente con traduzioni
I motori di gioco generativi hanno il potenziale di rivoluzionare lo sviluppo dei videogiochi creando autonomamente nuovi contenuti e riducendo il carico di lavoro manuale. Tuttavia, i metodi esistenti di generazione di videogiochi basati su video non affrontano la sfida critica della generalizzazione della scena, limitando la loro applicabilità ai giochi esistenti con stili e scene fissi. In questo articolo, presentiamo GameFactory, un framework focalizzato sull'esplorazione della generalizzazione della scena nella generazione di video di giochi. Per consentire la creazione di giochi completamente nuovi e diversi, sfruttiamo modelli di diffusione video preaddestrati su dati video di dominio aperto. Per colmare il divario di dominio tra i priori di dominio aperto e il dataset di giochi su piccola scala, proponiamo una strategia di addestramento a più fasi che separa l'apprendimento dello stile di gioco dal controllo dell'azione, preservando la generalizzazione del dominio aperto e ottenendo la controllabilità dell'azione. Utilizzando Minecraft come nostra fonte di dati, rilasciamo GF-Minecraft, un dataset video di alta qualità e diversità annotato sull'azione per la ricerca. Inoltre, estendiamo il nostro framework per consentire la generazione di video di giochi autoregressivi e controllabili sull'azione, consentendo la produzione di video di giochi interattivi di lunghezza illimitata. I risultati sperimentali dimostrano che GameFactory genera efficacemente video di giochi di dominio aperto, diversi e controllabili sull'azione, rappresentando un significativo passo avanti nella generazione di giochi guidata dall'IA. Il nostro dataset e la pagina del progetto sono pubblicamente disponibili su https://vvictoryuki.github.io/gamefactory/.
Questo lavoro esplora se un modello generativo profondo possa apprendere conoscenze complesse esclusivamente da input visivi, in contrasto con l'attuale enfasi sui modelli basati su testo come i grandi modelli linguistici (LLM). Sviluppiamo VideoWorld, un modello di generazione video auto-regressivo addestrato su dati video non etichettati, e testiamo le sue capacità di acquisizione di conoscenza in compiti di Go basati su video e controllo robotico. I nostri esperimenti rivelano due risultati chiave: (1) l'addestramento solo su video fornisce informazioni sufficienti per apprendere conoscenze, inclusi regole, capacità di ragionamento e pianificazione, e (2) la rappresentazione del cambiamento visivo è cruciale per l'acquisizione di conoscenza. Per migliorare sia l'efficienza che l'efficacia di questo processo, introduciamo il Modello di Dinamiche Latenti (LDM) come componente chiave di VideoWorld. Sorprendentemente, VideoWorld raggiunge un livello professionale di 5-dan nel Video-GoBench con un modello di soli 300 milioni di parametri, senza fare affidamento su algoritmi di ricerca o meccanismi di ricompensa tipici nell'apprendimento per rinforzo. Nei compiti robotici, VideoWorld apprende efficacemente diverse operazioni di controllo e generalizza tra ambienti, avvicinandosi alle prestazioni dei modelli oracolo in CALVIN e RLBench. Questo studio apre nuove strade per l'acquisizione di conoscenza da dati visivi, con tutto il codice, i dati e i modelli resi open source per ulteriori ricerche.
Recentemente, LoRA e le sue varianti sono diventate la strategia predefinita per addestrare e condividere versioni specifiche di compiti di modelli preaddestrati di grandi dimensioni, grazie alla loro efficienza e semplicità. Tuttavia, la questione della protezione dei diritti d'autore per i pesi di LoRA, in particolare attraverso tecniche basate su watermark, rimane poco esplorata. Per affrontare questa lacuna, proponiamo SEAL (SEcure wAtermarking su pesi di LoRA), il watermarking whitebox universale per LoRA. SEAL incorpora una matrice segreta e non addestrabile tra i pesi addestrabili di LoRA, fungendo da passaporto per rivendicare la proprietà. Successivamente, SEAL intreccia il passaporto con i pesi di LoRA attraverso l'addestramento, senza alcuna perdita aggiuntiva per l'intreccio, e distribuisce i pesi raffinati dopo aver nascosto il passaporto. Applicando SEAL, non abbiamo osservato degradazione delle prestazioni attraverso ragionamento di buon senso, adattamento istruzioni testuali/visive e compiti di sintesi testo-immagine. Dimostriamo che SEAL è robusto contro una varietà di attacchi noti: rimozione, offuscamento e attacchi di ambiguità.