翻訳付きの日次キュレーションされたAI研究論文
生成型ゲームエンジンは、新しいコンテンツを自律的に作成し、手作業の作業量を減らすことで、ゲーム開発を革新する可能性を秘めています。しかし、既存のビデオベースのゲーム生成手法は、シーンの一般化という重要な課題に対処できず、固定されたスタイルやシーンを持つ既存のゲームにのみ適用されるという制約があります。本論文では、ゲームビデオ生成におけるシーンの一般化を探究することに焦点を当てたフレームワークであるGameFactoryを提案します。完全に新しい多様なゲームを作成するために、オープンドメインのビデオデータでトレーニングされた事前学習済みビデオ拡散モデルを活用しています。オープンドメインの先行事項と小規模なゲームデータセットとのドメインギャップを埋めるために、ゲームスタイルの学習とアクション制御を分離し、オープンドメインの一般化を保ちつつアクションの制御可能性を達成するマルチフェーズのトレーニング戦略を提案しています。データソースとしてMinecraftを使用し、研究用に高品質で多様なアクション注釈付きビデオデータセットであるGF-Minecraftを公開しています。さらに、自己回帰型のアクション制御可能なゲームビデオ生成を可能にするために、フレームワークを拡張し、無制限の長さのインタラクティブなゲームビデオを制作できるようにしています。実験結果は、GameFactoryがオープンドメインで多様でアクション制御可能なゲームビデオを効果的に生成し、AIによるゲーム生成の大きな進歩を示しています。当社のデータセットとプロジェクトページは、https://vvictoryuki.github.io/gamefactory/ で公開されています。
この研究は、テキストベースのモデルである大規模言語モデル(LLMs)に代わり、深層生成モデルが視覚入力のみから複雑な知識を学習できるかどうかを探るものです。我々は、未ラベルのビデオデータで訓練された自己回帰型ビデオ生成モデルであるVideoWorldを開発し、その知識獲得能力をビデオベースの囲碁やロボット制御のタスクでテストします。実験の結果、2つの主要な発見が明らかになりました:(1)ビデオのみの訓練は、ルール、推論、計画能力を含む知識を学習するのに十分な情報を提供し、(2)視覚的変化の表現が知識獲得に重要であることが示されました。このプロセスの効率性と効果を向上させるために、我々はVideoWorldの主要な構成要素として潜在動態モデル(LDM)を導入します。驚くべきことに、VideoWorldは、探索アルゴリズムや強化学習に典型的な報酬メカニズムに依存せず、3億パラメータのモデルでビデオ-GoBenchで5段のプロフェッショナルレベルに到達します。ロボットタスクでは、VideoWorldは効果的にさまざまな制御操作を学習し、環境を横断して汎化し、CALVINやRLBenchのオラクルモデルに近いパフォーマンスを達成します。この研究は、視覚データからの知識獲得の新たな可能性を開拓し、すべてのコード、データ、モデルをオープンソースとして公開し、さらなる研究に活用できるようにしています。
最近、LoRAおよびその派生物は、効率性と簡便さから、大規模な事前学習モデルのタスク固有バージョンを訓練および共有するための事実上の戦略となっています。しかし、特に浸水型技術を通じたLoRAウェイトの著作権保護の問題は、未だに十分に探求されていません。このギャップを埋めるために、LoRA用のユニバーサルなホワイトボックス浸水型技術であるSEAL(SEcure wAtermarking on LoRA weights)を提案します。SEALは、訓練可能なLoRAウェイト間に秘密の訓練不可行列を埋め込み、所有権を主張するパスポートとして機能します。SEALは、パスポートをLoRAウェイトと訓練を通じて絡み合わせ、絡み合わせのための追加損失なしに、パスポートを隠した後に調整されたウェイトを配布します。SEALを適用する際、常識的推論、テキスト/ビジュアル指示調整、テキストから画像への合成タスクにおいて性能の低下は観察されませんでした。SEALは、削除、曖昧化、曖昧攻撃に対しても様々な既知の攻撃に対して強固であることを示します。