翻訳付きの日次キュレーションされたAI研究論文
ポストトレーニング量子化は、LLM推論におけるメモリ関連のボトルネックに対処する主要な手法ですが、残念ながら4ビット以下の精度では性能が大幅に低下するという課題があります。これに対する代替アプローチとして、低ビット幅(例えばバイナリや3値モデル)で直接圧縮モデルをトレーニングする方法があります。しかし、このようなモデルの性能、トレーニングダイナミクス、スケーリング傾向についてはまだ十分に理解されていません。この問題に対処するため、私たちは99Mから3.9Bパラメータまでの54の言語モデルからなるSpectra LLMスイートを300Bトークンでトレーニングし、公開しました。Spectraには、FloatLM、ポストトレーニング量子化されたQuantLM(3、4、6、8ビット)、そして3値LLM(TriLM)が含まれています。TriLMは、私たちが改良した3値言語モデリングのアーキテクチャで、与えられたサイズ(ビット単位)の従来の3値モデルを大幅に上回り、大規模では半精度モデルに匹敵する性能を発揮します。例えば、TriLM 3.9Bは半精度FloatLM 830Mよりも(ビット単位で)小さく、半精度FloatLM 3.9Bと常識推論や知識ベンチマークで同等の性能を示します。しかし、TriLM 3.9Bは、サイズが6倍大きいFloatLM 3.9Bと同様に有害でステレオタイプ的な特性も持っています。さらに、TriLM 3.9Bは、検証用データセットやウェブベースのコーパスでのパープレキシティではFloatLMに劣りますが、LambadaやPennTreeBankのようなノイズの少ないデータセットではより良い性能を発揮します。 低ビット幅モデルの理解を深めるため、私たちはSpectraスイートの中間チェックポイント500以上をhttps://github.com/NolanoOrg/SpectraSuite{https://github.com/NolanoOrg/SpectraSuite}で公開しています。
私たちは、新しい技術を用いてシーケンス長に対して線形時間・空間で高度に圧縮され再利用可能なKVキャッシュを効率的に生成するハイブリッドLinear Attention/Transformerシーケンスモデル、GoldFinchを紹介します。GoldFinchは、Finch(RWKV-6)アーキテクチャの拡張版の上に、新たに開発したGOLDトランスフォーマーを積み重ねた構造です。Finch、Llama、およびGoldFinchアーキテクチャの最大1.5Bパラメータクラスのモデルをトレーニングし、FinchおよびLlamaと比較して劇的に改善されたモデリング性能を確認しました。キャッシュサイズの削減効果はモデルの層数に比例して線形に増加し、一般的なサイズでは従来のトランスフォーマーキャッシュと比べて756~2550倍小さくなり、限られたハードウェア上でも極めて大きなコンテキスト長の推論を可能にします。自己回帰生成はAttentionのためトークンあたりO(n)の時間計算量を要しますが、提出されたコンテキストに対する初期キャッシュ状態の事前計算は、このキャッシュを生成するためにリカレントニューラルネットワーク(RNN)を使用するため、トークンあたりO(1)時間しかかかりません。私たちは、トレーニング済みの重みとトレーニングコードをApache 2.0ライセンスの下でコミュニティ利用のために公開します。
LLMエージェントは、推論能力、外部知識やツールの活用、API呼び出し、環境との相互作用を実行する能力の高さから、さまざまなアプリケーションで顕著な性能を発揮しています。現在のエージェントは、通常、メモリモジュールまたは検索拡張生成(RAG)メカニズムを利用し、過去の知識や類似した埋め込みを持つインスタンスを知識ベースから検索して、タスクの計画と実行に役立てています。しかし、検証されていない知識ベースへの依存は、その安全性と信頼性に関する重大な懸念を引き起こしています。このような脆弱性を明らかにするために、我々は新しいレッドチーミングアプローチであるAgentPoisonを提案します。これは、汎用およびRAGベースのLLMエージェントを対象とした、長期的なメモリまたはRAG知識ベースを毒する初めてのバックドア攻撃です。具体的には、トリガー生成プロセスを制約付き最適化として定式化し、トリガー付きインスタンスを一意の埋め込み空間にマッピングすることでバックドアトリガーを最適化し、ユーザーの指示に最適化されたバックドアトリガーが含まれている場合に、毒されたメモリまたは知識ベースから悪意のあるデモンストレーションが高い確率で検索されるようにします。一方で、トリガーを含まない良性の指示は、通常の性能を維持します。従来のバックドア攻撃とは異なり、AgentPoisonは追加のモデルトレーニングやファインチューニングを必要とせず、最適化されたバックドアトリガーは優れた転移性、コンテキスト内の一貫性、およびステルス性を示します。広範な実験により、AgentPoisonがRAGベースの自動運転エージェント、知識集約型QAエージェント、医療EHRAgentという3種類の実世界のLLMエージェントを攻撃する際の有効性が実証されています。各エージェントにおいて、AgentPoisonは0.1%未満の毒率で、平均80%以上の攻撃成功率を達成し、良性の性能への影響は最小限(1%未満)に抑えられています。
マルチモーダル大規模言語モデル(MLLMs)は、視覚と言語の一般的な理解において有望な進展を示しています。しかし、MLLMsを用いたマルチモーダル情報の表現は、まだほとんど未開拓の領域です。本研究では、ユニバーサルなマルチモーダル埋め込みを実現するためにMLLMsを適応させる新しいフレームワーク、E5-Vを提案します。我々の研究結果は、従来のアプローチと比較して、MLLMsがマルチモーダル入力を表現する上で大きな可能性を秘めていることを示しています。プロンプトを活用したMLLMsにより、E5-Vは異なるタイプの入力間のモダリティギャップを効果的に埋め、ファインチューニングなしでも強力なマルチモーダル埋め込み性能を発揮します。我々は、E5-Vに対して単一モダリティのトレーニングアプローチを提案し、モデルをテキストペアのみでトレーニングします。この方法は、画像-テキストペアを用いた従来のマルチモーダルトレーニングと比較して大幅な改善を示し、トレーニングコストを約95%削減します。さらに、このアプローチは、高価なマルチモーダルトレーニングデータの収集を不要にします。4種類のタスクにわたる広範な実験により、E5-Vの有効性が実証されました。ユニバーサルなマルチモーダルモデルとして、E5-Vは単一モダリティでトレーニングされているにもかかわらず、各タスクにおいて最先端の性能を達成し、しばしばそれを上回る結果を示しています。
大規模基盤モデルの進展に伴い、広範なカバレッジ、低コスト、そしてゼロ汚染を実現したベンチマークが求められています。言語モデルの評価に関する継続的な探求にもかかわらず、大規模マルチモーダルモデル(LMMs)の評価に関する包括的な研究は依然として限られています。本研究では、透明性と再現性のある評価を促進するため、50以上のタスクと10以上のモデルを備えた統一された標準化マルチモーダルベンチマークフレームワークであるLMMS-EVALを紹介します。LMMS-EVALは包括的なカバレッジを提供しますが、低コストとゼロ汚染の達成にはまだ不十分であることがわかりました。この評価のトリレンマにアプローチするため、カバレッジと効率性を重視した剪定版評価ツールキットであるLMMS-EVAL LITEをさらに紹介します。加えて、継続的に更新されるニュースやオンラインフォーラムを活用し、モデルの実世界での汎化能力を評価するMultimodal LIVEBENCHを提案します。これは低コストかつゼロ汚染の評価アプローチを特徴としています。要約すると、本研究は評価のトリレンマを考慮することの重要性を強調し、大規模マルチモーダルモデルの評価におけるトレードオフをナビゲートするための実践的な解決策を提供し、LMMsのより効果的で信頼性の高いベンチマークの道を開きます。私たちはコードベースをオープンソース化し、LIVEBENCHのリーダーボードをhttps://github.com/EvolvingLMMs-Lab/lmms-evalおよびhttps://huggingface.co/spaces/lmms-lab/LiveBenchで維持しています。
大規模言語モデル(LLMs)が言語理解と生成において顕著な進歩を遂げる中、その学習効率が重要な課題となっています。従来、LLMsはシーケンス内の次のトークンを予測するように訓練されてきました。トークンレベルの学習は成功を収めているものの、膨大な数のトークンを処理する必要があるため、計算コストが非常に高くなります。この問題を緩和するため、本論文ではLLMsのためのパッチレベル学習を提案します。これは、複数のトークンを1つのパッチに圧縮することでシーケンス長を短縮するものです。パッチレベル学習では、より短いパッチシーケンスを言語モデルに入力し、次のパッチを予測するように訓練することで、大部分の学習データを大幅に削減された計算コストで処理します。その後、モデルは推論モードに合わせるため、残りの学習データに対してトークンレベルの学習を継続します。多様なモデル(370M-2.7Bパラメータ)での実験により、パッチレベル学習はトークンレベル学習と比較してモデル性能を損なうことなく、全体の計算コストを0.5倍に削減できることが示されました。ソースコード: https://github.com/shaochenze/PatchTrain。
現代のテキストからビデオを生成するモデルは、テキスト記述から複雑なビデオを一貫性があり、写真のようにリアルに生成する能力を示しています。しかし、既存のモデルの多くは、カメラの動きに対する細かい制御が欠けており、これはコンテンツ制作、視覚効果、3Dビジョンに関連する下流アプリケーションにとって重要です。最近、新しい手法が登場し、制御可能なカメラポーズでビデオを生成する能力を示しています。これらの技術は、空間と時間の生成を明示的に分離する事前学習済みのU-Netベースの拡散モデルを活用しています。それでも、空間と時間の情報を共同で処理する新しいトランスフォーマーベースのビデオ拡散モデルに対するカメラ制御を可能にする既存のアプローチはありません。ここでは、Plucker座標に基づく時空間カメラ埋め込みを組み込んだControlNetのような条件付けメカニズムを使用して、3Dカメラ制御のためのビデオトランスフォーマーを制御することを提案します。このアプローチは、RealEstate10Kデータセットでの微調整後に、制御可能なビデオ生成において最先端のパフォーマンスを示します。私たちの知る限り、この研究はトランスフォーマーベースのビデオ拡散モデルに対するカメラ制御を可能にする最初の試みです。
最新の進展により、潜在拡散モデルを用いた局所的な衣服修復を通じて、現実的なバーチャル試着(VTON)が実現され、消費者にとってのオンラインショッピング体験が大幅に向上しました。しかし、既存のVTON技術は、衣服の柔軟な制御、オプションの顔、ポーズ、シーンを含む、衣服を包括的に展示するという販売者のニーズを無視しています。この問題に対処するため、私たちは固定された衣服とオプションの条件を持つ自由に編集可能な人間の画像を生成することに焦点を当てたバーチャルドレッシング(VD)タスクを定義します。同時に、生成された画像と参照衣服の一貫性を評価するための包括的な親和性指標(CAMI)を設計します。次に、CLIPから意味的特徴を、VAEからテクスチャ特徴を取得する衣服UNetを組み込んだIMAGDressing-v1を提案します。凍結された自己注意と訓練可能な相互注意を含むハイブリッド注意モジュールを提示し、衣服UNetから得た衣服特徴を凍結されたノイズ除去UNetに統合し、ユーザーがテキストを通じて異なるシーンを制御できるようにします。IMAGDressing-v1は、ControlNetやIP-Adapterなどの拡張プラグインと組み合わせることで、生成画像の多様性と制御性を向上させることができます。さらに、データ不足に対処するため、30万組以上の衣服と着用画像を含むインタラクティブな衣服ペアリング(IGPair)データセットを公開し、データアセンブリの標準パイプラインを確立します。広範な実験により、IMAGDressing-v1が様々な制御条件下で最先端の人間画像合成性能を達成することが示されています。コードとモデルはhttps://github.com/muzishen/IMAGDressingで公開されます。
現在のLLMベースのビデオ理解モデルの多くは、数分以内にビデオを処理することが可能です。しかし、長時間のビデオに対しては、「ノイズと冗長性」や「メモリと計算」の制約といった課題に直面しています。本論文では、任意の長さのビデオを理解するために特化した手法であるGoldfishを提案します。また、ビジョンとテキストの内容に関する質問を通じて、長時間ビデオの理解能力を評価するために設計されたTVQA-longベンチマークを紹介します。Goldfishは、効率的な検索メカニズムを用いて、最初に指示に関連するトップkのビデオクリップを収集し、その後、所望の応答を提供します。この検索メカニズムの設計により、Goldfishは任意の長さのビデオシーケンスを効率的に処理し、映画やテレビシリーズなどのコンテキストでの応用を可能にします。検索プロセスを支援するために、ビデオクリップの詳細な説明を生成するMiniGPT4-Videoを開発しました。長時間ビデオ評価のためのベンチマークの不足に対処するため、TVQA短編ビデオベンチマークを拡張コンテンツ分析用に適応させ、エピソード全体からの質問を集約することで、評価を部分的な理解からエピソード全体の理解にシフトしました。TVQA-longベンチマークで41.78%の精度を達成し、従来の手法を14.94%上回りました。また、MiniGPT4-Videoは短編ビデオ理解においても優れた性能を示し、MSVD、MSRVTT、TGIF、TVQA短編ビデオベンチマークでそれぞれ3.23%、2.03%、16.5%、23.59%の向上を記録しました。これらの結果は、我々のモデルが長時間および短時間ビデオの理解において大幅な改善を達成したことを示しています。我々のモデルとコードはhttps://vision-cair.github.io/Goldfish_website/で公開されています。
大規模言語モデル(LLMs)が示す複雑な推論能力は非常に印象的です。ほとんどのLLMは、連鎖思考プロンプティングや反復的なツール使用など、段階的に難しい課題を解決する演繹的推論に長けています。本論文では、LLMが帰納的推論を行う能力を評価し、教えることに焦点を当てたいと考えています。つまり、LLMは例や連続的な変換を観察することで、背後にある規則を推論することが求められます。しかし、大規模で多様な人間が生成した帰納的データを収集することは困難です。私たちはコード領域におけるデータ合成に焦点を当て、プログラムの表現力と正確性を活用してCase2Codeタスクを提案します。具体的には、多様な実行可能なプログラムを収集し、各プログラムに対して入出力変換を合成し、LLMに合成されたI/Oケースに基づいて背後にあるコード実装を推論させます。まず、代表的なLLMを合成されたCase2Codeタスクで評価し、Case-to-code帰納がLLMにとって難しいことを示します。その後、大規模なCase2Codeトレーニングサンプルを合成し、LLMに帰納的推論を実行させるためのトレーニングを行います。実験結果は、このような帰納的トレーニングが、分布内のCase2Code性能だけでなく、トレーニングされたLLMのさまざまなコーディング能力も向上させることを示しており、合成データを通じて帰納的推論を学ぶことの大きな可能性を実証しています。
ほとんどの音楽生成モデルがテキストやパラメトリックな条件付け(例:テンポ、和声、音楽ジャンル)を使用する中で、我々はオーディオ入力を基にした言語モデルによる音楽生成システムを提案します。我々の探求は2つの異なる戦略を包含しています。最初の戦略は、テキスト反転(textual inversion)と呼ばれ、事前に訓練されたテキストから音楽へのモデルを活用して、オーディオ入力をテキスト埋め込み空間内の対応する「疑似単語」にマッピングします。2番目のモデルでは、テキスト条件付け器と量子化されたオーディオ特徴抽出器を併用して、音楽言語モデルをゼロから訓練します。推論時には、新たな二重クラス分類器フリーガイダンス法を用いて、テキストとオーディオの条件付けを混合し、それらのバランスを調整することができます。我々は自動および人間による研究を実施し、このアプローチの有効性を検証しました。コードを公開し、モデルの品質を示すために、https://musicgenstyle.github.io で音楽サンプルを提供します。
制約のない実世界の画像コレクションからの新規視点合成は、光学的な変動や一時的な遮蔽物の存在により正確なシーン再構築が複雑化するため、依然として重要な課題であり続けています。従来の手法では、Neural Radiance Fields (NeRF) に各画像の外観特徴埋め込みを統合することでこれらの問題に対処してきました。3D Gaussian Splatting (3DGS) はより高速な学習とリアルタイムレンダリングを提供しますが、そのアーキテクチャが大きく異なるため、制約のない画像コレクションに適応させることは容易ではありません。本論文では、ラスタライゼーションプロセスにガウシアンごとのニューラルカラーフィーチャーと画像ごとの外観埋め込みを統合し、球面調和関数に基づく背景モデルを用いて変化する光学的な外観を表現し、背景をより良く描写するアプローチである Splatfacto-W を紹介します。我々の主な貢献は、潜在的な外観モデリング、効率的な一時的オブジェクト処理、そして精密な背景モデリングを含みます。Splatfacto-W は、実世界のシナリオにおいてシーン一貫性を向上させた高品質なリアルタイム新規視点合成を実現します。本手法は、3DGS と比較して平均 5.3 dB のピーク信号対雑音比 (PSNR) を向上させ、NeRF ベースの手法と比較して 150 倍の学習速度を達成し、3DGS と同様のレンダリング速度を実現します。追加のビデオ結果と Nerfstudio に統合されたコードは https://kevinxu02.github.io/splatfactow/ で利用可能です。
混雑した環境におけるロボット把持は、遮蔽物や複雑な物体配置のため、依然として大きな課題となっています。私たちは、GPT-4oの高度な文脈推論を活用したプラグアンドプレイ型の視覚-言語把持システム「ThinkGrasp」を開発しました。ThinkGraspは、目標指向の言語を用いて遮蔽物の除去を導くことで、重度に遮蔽されていてもほぼ見えない状態のターゲット物体に対しても、効果的に把持姿勢を特定し生成することができます。このアプローチにより、ターゲット物体を段階的に見つけ出し、最終的には少ないステップで高い成功率で把持することが可能です。シミュレーションおよび実環境での実験において、ThinkGraspは高い成功率を達成し、重度に混雑した環境や多様な未見物体においても最先端の手法を大幅に上回り、強力な汎化能力を示しました。
グラフィカルユーザーインターフェース(GUI)は、ユーザーがモバイルアプリと対話するための手段です。その正常な動作を保証するため、テストエンジニアは、通常自然言語で記述されたテスト要件に基づいて、意図した通りに機能することを確認しなければなりません。広く採用されている手動テストやスクリプトベースの方法は効果的ですが、現代のモバイルアプリにおける膨大な数のGUIページと迅速なイテレーションのため、多大な労力を要します。本論文では、モバイルアプリ向けの最初の自動的で自然言語駆動型のGUIテストツールであるAUITestAgentを紹介します。このツールは、GUIインタラクションと機能検証の全プロセスを完全に自動化することが可能です。テスト要件には通常、インタラクションコマンドと検証オラクルが含まれるため、AUITestAgentは動的に組織化されたエージェントを介してテスト要件からGUIインタラクションを抽出します。その後、AUITestAgentは多次元データ抽出戦略を用いて、インタラクショントレースからテスト要件に関連するデータを取得し、検証を実行します。カスタマイズされたベンチマークでの実験により、AUITestAgentは生成されたGUIインタラクションの品質において既存のツールを上回り、検証の精度は94%を達成しました。さらに、Meituanでのフィールド展開では、AUITestAgentの実用性が示され、2か月間の10回のリグレッションテスト中に4つの新たな機能バグを検出しました。
大規模言語モデル(LLMs)の目覚ましい進歩を活用し、指示追従型ロボットナビゲーションにLLMsを利用する取り組みが急速に進んでいます。このトレンドは、LLMsがナビゲーション推論と言語理解の多様性を一般化する可能性を強調しています。しかし、ビジョンと言語ナビゲーション(VLN)タスクにLLMsを統合する際、以前の専門的下流モデルと比較してエージェントの性能に大きな乖離が観察されます。さらに、エージェント間の相互作用において言語が持つ解釈とコミュニケーションを促進する能力は、これらの統合においてしばしば十分に活用されていません。本研究では、VLN専門モデルとLLMベースのナビゲーションパラダイムの間の隔たりを埋めるとともに、LLMsが持つ言語的ナビゲーション推論の解釈力を維持することを目指します。凍結されたLLM内で視覚コンテンツを整合させることで、LLMsの視覚観察理解を包含し、LLMsとナビゲーションポリシーネットワークを統合して効果的な行動予測とナビゲーション推論を行う方法を探ります。提案手法のデータ効率性を実証し、LMベースのエージェントと最先端のVLN専門家の間のギャップを解消します。
大規模言語モデル(LLM)は様々な領域やタスクで印象的な性能を示している一方で、そのセキュリティ上の問題が深刻化しています。機械学習のアンラーニング(MU)は、望ましくないデータの影響を対象モデルから除去しつつ、他の側面での有用性を損なわないという点で、これらの問題に対処する有望な解決策として登場しました。MUは通常、有用性を維持するために元の訓練データへの完全なアクセスを前提としていますが、これはLLMのアンラーニングでは実現が困難です。既存のLLMアンラーニング手法は、望ましくないデータのアンラーニングに最も影響を受けるデータへのアクセスを前提としています。しかし、この前提は様々なLLM能力間の絡み合いを過小評価しており、様々な問題によるデータアクセスの制限を無視しています。さらに、これらのLLMアンラーニング手法は、現実世界のシナリオでアンラーニング要求が継続的に発生することを十分に考慮していません。これらの課題を克服し、実用的なLLMアンラーニングを実現するために、我々はO3フレームワークを提案します。O3フレームワークは、入力とアンラーニングデータの類似度を測定するためのOut-Of-Distribution(OOD)検出器と、要求されたデータを継続的にアンラーニングするための直交低ランクアダプタ(LoRA)を含んでいます。OOD検出器は、新規のコントラスティブエントロピー損失で訓練され、局所-大域層集約スコアリングメカニズムを利用します。直交LoRAは、継続的なアンラーニング要求間のパラメータの分離を実現します。推論時には、O3フレームワークはOOD検出器の予測に基づいて、アンラーニングLoRAをロードするかどうか、またどの程度ロードするかを賢く決定できます。特に、O3の有効性は、保持されたデータに依存しません。我々は、O3と最先端のLLMアンラーニング手法について、3つのタスクと7つのデータセットで広範な実験を行いました。その結果、O3は特に継続的なアンラーニング要求に直面した場合に、アンラーニングの有効性と有用性の維持の間で常に最良のトレードオフを達成することが示されました。
チャットベースの言語モデルはユーザーを支援するように設計されていますが、すべてのユーザーリクエストに従うべきではありません。既存研究の多くは主に「安全でない」クエリの拒否に焦点を当てていますが、私たちは非遵守の範囲を広げるべきだと主張します。本論文では、モデルがユーザーリクエストに従うべきでない状況と方法を記述した、文脈に基づく非遵守の包括的分類体系を導入します。この分類体系は、不完全、未サポート、不確定、人間らしさを求めるリクエスト(安全でないリクエストに加えて)など、幅広いカテゴリを網羅しています。言語モデルの非遵守能力をテストするため、この分類体系を用いて1000の非遵守プロンプトからなる新しい評価スイートを開発しました。その結果、GPT-4のようなモデルが、これまで十分に研究されていなかった特定のカテゴリにおいて最大30%ものリクエストに誤って従ってしまうなど、既存モデルの多くが著しく高い遵守率を示すことがわかりました。これらのギャップに対処するため、合成生成されたリクエストと期待される非遵守応答からなるトレーニングセットを使用し、さまざまなトレーニング戦略を探求しました。実験結果から、指示チューニング済みモデルの直接的なファインチューニングは過剰な拒否や一般的な能力の低下を招く可能性がある一方、低ランクアダプターのようなパラメータ効率の良い手法を使用することで、適切な非遵守とその他の能力のバランスをうまく取れることが示されました。
文法誤り検出(GED)手法は、人間による注釈付き誤りコーパスに大きく依存しています。しかし、多くの低リソース言語ではこれらの注釈が利用できません。本論文では、このような状況下でのGEDを調査します。多言語事前学習言語モデルのゼロショット言語間転移能力を活用し、多様な言語のデータを使用して他の言語での合成誤りを生成するモデルを訓練します。これらの合成誤りコーパスは、GEDモデルの訓練に使用されます。具体的には、2段階のファインチューニングパイプラインを提案します。まず、GEDモデルを対象言語からの多言語合成データでファインチューニングし、その後、ソース言語からの人間による注釈付きGEDコーパスでファインチューニングします。このアプローチは、現在の最先端の注釈不要GED手法を上回ります。また、我々の手法や他の強力なベースラインが生成する誤りを分析し、我々のアプローチがより多様で人間の誤りに近い誤りを生成することを明らかにしました。
ビデオ生成モデル(VGMs)は、高品質な出力を合成する能力を示しています。しかし、暴力的または恐怖を誘発するビデオなど、安全でないコンテンツを生成する可能性を理解することが重要です。本研究では、安全でないビデオ生成に関する包括的な理解を提供します。 まず、これらのモデルが実際に安全でないビデオを生成する可能性を確認するため、4chanとLexicaから収集した安全でないコンテンツ生成プロンプトと、3つのオープンソースの最先端VGMsを選択し、安全でないビデオを生成しました。重複や生成品質の低いコンテンツを除外した後、元の5607本のビデオから2112本の安全でないビデオの初期セットを作成しました。これらの生成ビデオをクラスタリングし、テーマ別コーディング分析を行うことで、5つの安全でないビデオカテゴリを特定しました:歪んだ/奇妙な、恐怖を誘発する、ポルノグラフィック、暴力的/血まみれの、政治的です。IRBの承認を得た後、オンライン参加者を募集し、生成されたビデオにラベルを付けてもらいました。403名の参加者から提出されたアノテーションに基づき、初期ビデオセットから937本の安全でないビデオを特定しました。ラベル情報と対応するプロンプトを用いて、VGMsによって生成された安全でないビデオの最初のデータセットを作成しました。 次に、安全でないビデオの生成を防ぐための可能な防御メカニズムを研究しました。画像生成における既存の防御方法は、入力プロンプトまたは出力結果のフィルタリングに焦点を当てています。私たちは、モデルの内部サンプリングプロセス内で動作する新しいアプローチであるLatent Variable Defense(LVD)を提案します。LVDは、大量の安全でないプロンプトをサンプリングする際に、防御精度0.90を達成し、時間と計算リソースを10分の1に削減することができます。