翻訳付きの日次キュレーションされたAI研究論文
近年、大規模言語モデル(LLMs)は目覚ましい成功を収めているが、特定のジェイルブレイキング攻撃に対して脆弱であり、不適切または有害なコンテンツの生成を引き起こす可能性がある。手動のレッドチーミングでは、例えば与えられた指示に接尾辞を追加するなどして、そのようなジェイルブレイキングを引き起こす敵対的プロンプトを見つける必要があり、非効率的で時間がかかる。一方、自動的な敵対的プロンプト生成は、しばしば意味的に無意味な攻撃を引き起こし、パープレキシティベースのフィルターで簡単に検出される可能性があるか、TargetLLMからの勾配情報を必要とするか、トークン空間での時間のかかる離散最適化プロセスのためスケールしにくい。本論文では、AdvPrompterと呼ばれる別のLLMを使用して、人間が読める敵対的プロンプトを数秒で生成する新しい方法を提案する。これは既存の最適化ベースのアプローチよりも約800倍高速である。我々は、TargetLLMの勾配にアクセスする必要のない新しいアルゴリズムを使用してAdvPrompterを訓練する。このプロセスは、2つのステップを交互に行う:(1) AdvPrompterの予測を最適化して高品質のターゲット敵対的接尾辞を生成し、(2) 生成された敵対的接尾辞を使用してAdvPrompterを低ランクでファインチューニングする。訓練されたAdvPrompterは、入力指示の意味を変えずにそれを覆い隠す接尾辞を生成し、TargetLLMが有害な応答をするように誘導する。人気のあるオープンソースのTargetLLMでの実験結果は、AdvBenchデータセットにおいて最先端の結果を示し、クローズドソースのブラックボックスLLM APIにも転移する。さらに、AdvPrompterによって生成された合成データセットでファインチューニングすることで、LLMをジェイルブレイキング攻撃に対してより堅牢にしつつ、性能(高いMMLUスコア)を維持できることを実証する。
本論文は、テキスト記述から3Dメッシュのマテリアルを生成することを目的としています。既存の手法がテクスチャマップを合成するのに対し、我々はセグメントごとのプロシージャルマテリアルグラフを外観表現として生成することを提案します。これにより、高品質なレンダリングが可能となり、編集においても大幅な柔軟性を提供します。マテリアルグラフ生成モデルを訓練するために、3Dメッシュとマテリアルグラフ、対応するテキスト記述といった大量のペアデータに依存する代わりに、事前学習済みの2D拡散モデルをテキストとマテリアルグラフを結びつける橋渡しとして活用することを提案します。具体的には、形状を一連のセグメントに分解し、メッシュパーツと整合する2D画像を合成するためのセグメント制御拡散モデルを設計します。生成された画像に基づいて、マテリアルグラフのパラメータを初期化し、微分可能なレンダリングモジュールを通じて微調整を行い、テキスト記述に従ったマテリアルを生成します。広範な実験により、我々のフレームワークが既存手法を上回る写実性、解像度、編集可能性を有することを実証しています。プロジェクトページ: https://zhanghe3z.github.io/MaPa/