每日精選AI研究論文及翻譯
生成式遊戲引擎具有革命性的潛力,可以自主創建新內容並減少手動工作量。然而,現有基於視頻的遊戲生成方法未能解決場景泛化的關鍵挑戰,限制了其應用範圍,僅適用於具有固定風格和場景的現有遊戲。本文提出了GameFactory,一個專注於探索遊戲視頻生成中場景泛化的框架。為了創建全新和多樣化的遊戲,我們利用在開放域視頻數據上訓練的預訓練視頻擴散模型。為了彌合開放域先驗和小規模遊戲數據集之間的領域差距,我們提出了一種多階段訓練策略,將遊戲風格學習與動作控制分離,保持開放域泛化同時實現動作可控性。利用Minecraft作為我們的數據來源,我們釋出了GF-Minecraft,一個高質量且多樣化的動作標註視頻數據集供研究使用。此外,我們擴展了我們的框架,實現自回歸動作可控的遊戲視頻生成,實現無限長度的互動遊戲視頻製作。實驗結果表明,GameFactory有效生成開放域、多樣化且動作可控的遊戲視頻,代表了AI驅動的遊戲生成的重要進步。我們的數據集和項目頁面可在https://vvictoryuki.github.io/gamefactory/公開獲取。
本研究探討深度生成模型是否能僅從視覺輸入中學習複雜知識,與目前主要關注大型語言模型(LLMs)等基於文本的模型形成對比。我們開發了VideoWorld,這是一個自回歸視頻生成模型,使用未標記的視頻數據進行訓練,並在基於視頻的圍棋和機器人控制任務中測試其知識獲取能力。我們的實驗揭示了兩個關鍵發現:(1)僅通過視頻訓練就能提供足夠的信息來學習知識,包括規則、推理和規劃能力;(2)視覺變化的表示對知識獲取至關重要。為了提高這一過程的效率和功效,我們引入了潛在動態模型(LDM)作為VideoWorld的關鍵組件。值得注意的是,VideoWorld在Video-GoBench中僅使用3億參數模型就達到了5段職業水準,而無需依賴於強化學習中典型的搜索算法或獎勵機制。在機器人任務中,VideoWorld有效地學習了各種控制操作,並在不同環境中實現泛化,接近了CALVIN和RLBench中神諭模型的性能。本研究為從視覺數據中獲取知識開辟了新的途徑,並將所有代碼、數據和模型開源供進一步研究使用。
最近,LoRA 及其變體已成為訓練和共享大型預訓練模型的任務特定版本的事實標準策略,這要歸功於其高效性和簡單性。然而,對於 LoRA 權重的版權保護問題,特別是透過基於浮水印的技術,仍未得到充分探討。為了填補這一空白,我們提出了 SEAL(LoRA 權重的安全浮水印),這是 LoRA 的通用白盒浮水印技術。SEAL 在可訓練的 LoRA 權重之間嵌入一個秘密的、不可訓練的矩陣,作為主張所有權的護照。然後,SEAL 通過訓練將護照與 LoRA 權重糾纏在一起,而不會因糾纏而產生額外損失,並在隱藏護照後分發微調後的權重。應用 SEAL 時,我們觀察到在常識推理、文本/視覺指導調整和文本到圖像合成任務中沒有性能下降。我們展示了 SEAL 對各種已知攻擊的強韌性:刪除攻擊、混淆攻擊和模糊攻擊。