ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrezziAccountSpazio di lavoro

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

1

GameFactory: Creazione di Nuovi Giochi con Video Interattivi Generativi
GameFactory: Creating New Games with Generative Interactive Videos

Jan 14
ByJiwen Yu, Yiran Qin, Xintao Wang, Pengfei Wan, Di Zhang, Xihui Liu
67
3

I motori di gioco generativi hanno il potenziale di rivoluzionare lo sviluppo dei videogiochi creando autonomamente nuovi contenuti e riducendo il carico di lavoro manuale. Tuttavia, i metodi esistenti di generazione di videogiochi basati su video non affrontano la sfida critica della generalizzazione della scena, limitando la loro applicabilità ai giochi esistenti con stili e scene fissi. In questo articolo, presentiamo GameFactory, un framework focalizzato sull'esplorazione della generalizzazione della scena nella generazione di video di giochi. Per consentire la creazione di giochi completamente nuovi e diversi, sfruttiamo modelli di diffusione video preaddestrati su dati video di dominio aperto. Per colmare il divario di dominio tra i priori di dominio aperto e il dataset di giochi su piccola scala, proponiamo una strategia di addestramento a più fasi che separa l'apprendimento dello stile di gioco dal controllo dell'azione, preservando la generalizzazione del dominio aperto e ottenendo la controllabilità dell'azione. Utilizzando Minecraft come nostra fonte di dati, rilasciamo GF-Minecraft, un dataset video di alta qualità e diversità annotato sull'azione per la ricerca. Inoltre, estendiamo il nostro framework per consentire la generazione di video di giochi autoregressivi e controllabili sull'azione, consentendo la produzione di video di giochi interattivi di lunghezza illimitata. I risultati sperimentali dimostrano che GameFactory genera efficacemente video di giochi di dominio aperto, diversi e controllabili sull'azione, rappresentando un significativo passo avanti nella generazione di giochi guidata dall'IA. Il nostro dataset e la pagina del progetto sono pubblicamente disponibili su https://vvictoryuki.github.io/gamefactory/.

2

VideoWorld: Esplorazione dell'apprendimento della conoscenza da video non etichettati
VideoWorld: Exploring Knowledge Learning from Unlabeled Videos

Jan 16
ByZhongwei Ren, Yunchao Wei, Xun Guo, Yao Zhao, Bingyi Kang, Jiashi Feng, Xiaojie Jin
28
2

Questo lavoro esplora se un modello generativo profondo possa apprendere conoscenze complesse esclusivamente da input visivi, in contrasto con l'attuale enfasi sui modelli basati su testo come i grandi modelli linguistici (LLM). Sviluppiamo VideoWorld, un modello di generazione video auto-regressivo addestrato su dati video non etichettati, e testiamo le sue capacità di acquisizione di conoscenza in compiti di Go basati su video e controllo robotico. I nostri esperimenti rivelano due risultati chiave: (1) l'addestramento solo su video fornisce informazioni sufficienti per apprendere conoscenze, inclusi regole, capacità di ragionamento e pianificazione, e (2) la rappresentazione del cambiamento visivo è cruciale per l'acquisizione di conoscenza. Per migliorare sia l'efficienza che l'efficacia di questo processo, introduciamo il Modello di Dinamiche Latenti (LDM) come componente chiave di VideoWorld. Sorprendentemente, VideoWorld raggiunge un livello professionale di 5-dan nel Video-GoBench con un modello di soli 300 milioni di parametri, senza fare affidamento su algoritmi di ricerca o meccanismi di ricompensa tipici nell'apprendimento per rinforzo. Nei compiti robotici, VideoWorld apprende efficacemente diverse operazioni di controllo e generalizza tra ambienti, avvicinandosi alle prestazioni dei modelli oracolo in CALVIN e RLBench. Questo studio apre nuove strade per l'acquisizione di conoscenza da dati visivi, con tutto il codice, i dati e i modelli resi open source per ulteriori ricerche.

3

SEAL: Filigrane bianche intrecciate in scatola bianca sull'adattamento a basso rango
SEAL: Entangled White-box Watermarks on Low-Rank Adaptation

Jan 16
ByGiyeong Oh, Saejin Kim, Woohyun Cho, Sangkyu Lee, Jiwan Chung, Dokyung Song, Youngjae Yu
10
2

Recentemente, LoRA e le sue varianti sono diventate la strategia predefinita per addestrare e condividere versioni specifiche di compiti di modelli preaddestrati di grandi dimensioni, grazie alla loro efficienza e semplicità. Tuttavia, la questione della protezione dei diritti d'autore per i pesi di LoRA, in particolare attraverso tecniche basate su watermark, rimane poco esplorata. Per affrontare questa lacuna, proponiamo SEAL (SEcure wAtermarking su pesi di LoRA), il watermarking whitebox universale per LoRA. SEAL incorpora una matrice segreta e non addestrabile tra i pesi addestrabili di LoRA, fungendo da passaporto per rivendicare la proprietà. Successivamente, SEAL intreccia il passaporto con i pesi di LoRA attraverso l'addestramento, senza alcuna perdita aggiuntiva per l'intreccio, e distribuisce i pesi raffinati dopo aver nascosto il passaporto. Applicando SEAL, non abbiamo osservato degradazione delle prestazioni attraverso ragionamento di buon senso, adattamento istruzioni testuali/visive e compiti di sintesi testo-immagine. Dimostriamo che SEAL è robusto contro una varietà di attacchi noti: rimozione, offuscamento e attacchi di ambiguità.

Jan 20
Jan 21
Jan 22