翻訳付きの日次キュレーションされたAI研究論文
NeRFで表現された3Dシーン内の特定の領域やオブジェクトを編集することは、シーン表現の暗黙的な性質から困難を伴います。特に、新しいリアルなオブジェクトをシーンに自然に融合させることは、さらなる難易度を加えます。本論文では、Blended-NeRFを提案します。これは、既存のNeRFシーン内の特定の関心領域を、テキストプロンプトや画像パッチ、3D ROIボックスに基づいて編集するための堅牢で柔軟なフレームワークです。本手法は、事前学習済みの言語-画像モデルを活用して、ユーザーが提供したテキストプロンプトや画像パッチに沿った合成を導き、既存のNeRFシーンに初期化された3D MLPモデルを使用してオブジェクトを生成し、元のシーンの指定された領域に自然に融合させます。3D ROIボックスを入力シーン内に局所化することで局所的な編集を可能にし、新たな体積的ブレンディング技術を用いてROI内で合成されたコンテンツを既存のシーンとシームレスに融合させます。自然で視点一貫性のある結果を得るために、既存および新規の幾何学的プライアと3D拡張を活用し、最終結果の視覚的忠実度を向上させます。 本フレームワークは、多様な実3Dシーンとテキストプロンプトを用いて定性的および定量的にテストされ、ベースラインと比較して現実的で多視点一貫性のある結果を高い柔軟性と多様性で実現することを示しています。最後に、シーンへの新しいオブジェクトの追加、既存オブジェクトの削除/置換/変更、テクスチャ変換など、いくつかの3D編集アプリケーションへの適用可能性を示します。
深層学習に基づく顔認識システムの成功は、デジタル世界におけるユーザーの無許可追跡を可能にする能力から、深刻なプライバシー懸念を引き起こしています。既存のプライバシー強化手法は、ユーザーエクスペリエンスを損なうことなく顔のプライバシーを保護できる自然な画像を生成することができません。本論文では、事前学習済み生成モデルの低次元多様体内で敵対的潜在コードを見つけることに依存する、新しい2段階の顔プライバシー保護アプローチを提案します。最初のステップでは、与えられた顔画像を潜在空間に反転させ、生成モデルを微調整して、潜在コードから与えられた画像の正確な再構成を実現します。このステップにより、与えられたIDに似た高品質な顔を生成するための良好な初期化が行われます。その後、ユーザー定義のメイクアップテキストプロンプトとID保存正則化を使用して、潜在空間内での敵対的コードの探索をガイドします。大規模な実験により、我々のアプローチによって生成された顔は、顔認証タスクにおいて最先端の顔プライバシー保護アプローチに対して12.06%の絶対的な向上を示す、より強力なブラックボックス転移性を持つことが実証されました。最後に、商用顔認識システムに対する提案アプローチの有効性を示します。我々のコードはhttps://github.com/fahadshamshad/Clip2Protectで公開されています。