AI研究論文デイリー

翻訳付きの日次キュレーションされたAI研究論文

ROICtrl: 視覚生成のためのインスタンス制御の強化
ROICtrl: Boosting Instance Control for Visual Generation

Nov 27, 2024

Yuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou

712

自然言語はしばしば、複数のインスタンスに位置情報や属性情報を正確に関連付けることに苦労し、これにより現在のテキストベースのビジュアル生成モデルは、わずかな支配的なインスタンスのみを備えたより単純な構成に限定されています。この制限に対処するために、本研究では、各インスタンスがバウンディングボックスとフリーフォームのキャプションによって制御される地域インスタンス制御を導入することで、拡散モデルを強化しています。この領域の従来の手法は、通常、暗黙の位置エンコーディングや明示的な注意マスクに依存して、関心領域（ROI）を分離しようとしますが、これにより不正確な座標の注入や大きな計算オーバーヘッドが生じます。物体検出におけるROI-Alignから着想を得て、ROI-Unpoolという補完的な操作を導入します。ROI-AlignとROI-Unpoolを組み合わせることで、視覚生成のための高解像度特徴マップ上での明示的で効率的かつ正確なROI操作が可能となります。ROI-Unpoolを基盤として、事前学習済みの拡散モデルに対して、精密な地域インスタンス制御を可能にするROICtrlを提案します。ROICtrlは、コミュニティによって微調整された拡散モデルと互換性があり、既存の空間ベースのアドオン（例：ControlNet、T2I-Adapter）や埋め込みベースのアドオン（例：IP-Adapter、ED-LoRA）とも互換性があり、これらのアプリケーションをマルチインスタンス生成に拡張します。実験結果は、ROICtrlが地域インスタンス制御において優れた性能を発揮し、計算コストを大幅に削減することを示しています。

交互に配置されたシーングラフによる交互のテキストと画像の生成の評価
Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment

Nov 26, 2024

Dongping Chen, Ruoxi Chen, Shu Pu, Zhaoyi Liu, Yanru Wu, Caixi Chen, Benlin Liu, Yue Huang, Yao Wan, Pan Zhou, Ranjay Krishna

192

多くの実世界のユーザークエリ（例：「卵チャーハンの作り方は？」）は、料理本のように、テキスト手順とそれに付随する画像を生成するシステムの恩恵を受ける可能性があります。交互にテキストと画像を生成するモデルは、これらのモダリティ内および間での一貫性を確保する際に課題に直面します。これらの課題に対処するために、交互にテキストと画像を生成するための包括的な評価フレームワークであるISGを提案します。ISGは、テキストと画像ブロック間の関係を捉えるためにシーングラフ構造を活用し、全体的、構造的、ブロックレベル、画像固有の4つの粒度レベルで応答を評価します。この多層評価により、一貫性、結合性、および正確性の微妙な評価が可能となり、解釈可能な質問回答フィードバックを提供します。ISGと併せて、8つのカテゴリと21のサブカテゴリにまたがる1,150のサンプルを含むISG-Benchというベンチマークを紹介します。このベンチマークデータセットには、複雑な言語ビジョン依存関係とヴィジョン中心のタスクであるスタイル変換などを効果的に評価するためのゴールデンアンサーが含まれています。ISG-Benchを使用して、最近の統合ビジョン言語モデルが交互コンテンツを生成する際に性能が低いことを示します。統合モデルよりも別々の言語と画像モデルを組み合わせる構成的アプローチは、全体レベルで統合モデルよりも111%の改善を示しますが、ブロックおよび画像レベルでのパフォーマンスは依然として最適ではありません。将来の研究を促進するために、「計画-実行-改善」パイプラインを用いたISG-Agentというベースラインエージェントを開発し、ツールを呼び出して122%の性能向上を達成します。

周波数分解によるアイデンティティを保持したテキストからビデオへの生成
Identity-Preserving Text-to-Video Generation by Frequency Decomposition

Nov 26, 2024

Shenghai Yuan, Jinfa Huang, Xianyi He, Yunyuan Ge, Yujun Shi, Liuhan Chen, Jiebo Luo, Li Yuan

133

アイデンティティを保持するテキストからビデオ（IPT2V）生成は、一貫した人間のアイデンティティを持つ高品質なビデオを作成することを目指しています。これはビデオ生成における重要な課題であり、生成モデルにとって未解決の問題です。本論文は、文献において未解決の2つの方向においてIPT2Vの技術的フロンティアを押し進めます：（1）煩雑なケースごとの微調整を必要としないチューニングフリーのパイプライン、および（2）周波数に敏感なヒューリスティックなアイデンティティ保持DiTベースの制御スキーム。私たちはConsisIDを提案します。これは、人間のアイデンティティを生成されたビデオで一貫させるためのチューニングフリーなDiTベースのコントロール可能なIPT2Vモデルです。拡散トランスフォーマーの周波数分析における先行研究に触発され、このモデルは顔の特徴を低周波数のグローバル特徴と高周波数の固有特徴に分解できる周波数領域でアイデンティティ制御信号を使用します。低周波数の観点から、参照画像と顔のキーポイントを潜在空間にエンコードするグローバルな顔抽出器を導入し、低周波数情報が豊富な特徴を生成します。これらの特徴は、DiTに関連するトレーニングの課題を軽減するためにネットワークの浅い層に統合されます。高周波数の観点から、高周波数の詳細を捉えるローカルな顔抽出器を設計し、これをトランスフォーマーブロックに注入することで、モデルが微細な特徴を保持する能力を向上させます。周波数情報を活用した階層的なトレーニング戦略を提案し、バニラの事前トレーニングされたビデオ生成モデルをIPT2Vモデルに変換し、アイデンティティを保持します。幅広い実験により、周波数に敏感なヒューリスティックなスキームがDiTベースのモデルに最適な制御ソリューションを提供することが示されました。このスキームのおかげで、ConsisIDは高品質でアイデンティティを保持するビデオを生成し、より効果的なIPT2Vに向けて大きな進歩を遂げています。

MARVEL-40M+: 高忠実度テキストから3Dコンテンツ作成のためのマルチレベルビジュアル詳細化
MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation

Nov 26, 2024

Sankalp Sinha, Mohammad Sadil Khan, Muhammad Usama, Shino Sam, Didier Stricker, Sk Aziz Ali, Muhammad Zeshan Afzal

214

テキストプロンプトから高品質な3Dコンテンツを生成することは、既存のデータセットのサイズ、多様性、および注釈の深さの制約から、コンピュータビジョンにおける重要な課題です。この課題に対処するために、私たちはMARVEL-40M+という、7つの主要な3Dデータセットから集約された8.9百万以上の3Dアセットに対する4,000万以上のテキスト注釈を持つ包括的なデータセットを導入します。私たちの貢献は、オープンソースの事前学習済みのマルチビューVLMおよびLLMを統合した新しいマルチステージ注釈パイプラインであり、詳細（150-200語）から簡潔な意味タグ（10-20語）までの多レベルの記述を自動的に生成します。この構造は、細かい粒度の3D再構築と迅速なプロトタイピングの両方をサポートします。さらに、ソースデータセットからの人間のメタデータを注釈パイプラインに組み込み、注釈にドメイン固有の情報を追加し、VLMの幻覚を減らします。さらに、私たちはMARVEL-FX3Dを開発し、2段階のテキストから3Dへのパイプラインを構築します。私たちの注釈を用いてStable Diffusionを微調整し、事前学習済みの画像から3Dへのネットワークを使用して、15秒以内に3Dテクスチャメッシュを生成します。包括的な評価により、MARVEL-40M+が注釈の品質と言語的多様性において既存のデータセットを大幅に上回り、GPT-4による勝率が72.41％、人間の評価者による勝率が73.40％を達成していることが示されました。

CAT4D: マルチビュー動画拡散モデルを用いた4次元での何でも創造
CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models

Nov 27, 2024

Rundi Wu, Ruiqi Gao, Ben Poole, Alex Trevithick, Changxi Zheng, Jonathan T. Barron, Aleksander Holynski

595

CAT4Dは、単眼ビデオから4D（動的3D）シーンを作成する手法を提案します。CAT4Dは、さまざまな組み合わせのデータセットでトレーニングされたマルチビュー・ビデオ拡散モデルを活用し、任意のカメラポーズとタイムスタンプで新しいビュー合成を可能にします。新しいサンプリング手法と組み合わせることで、このモデルは単眼ビデオをマルチビュー・ビデオに変換し、変形可能な3Dガウス表現の最適化を通じて堅牢な4D再構築を実現します。私たちは、新しいビュー合成および動的シーン再構築のベンチマークで競争力のあるパフォーマンスを示し、実際または生成されたビデオからの4Dシーン生成の創造的な能力を強調します。結果やインタラクティブなデモについては、弊社のプロジェクトページをご覧ください：cat-4d.github.io。

大規模言語モデルを用いたGUIエージェント：調査
Large Language Model-Brained GUI Agents: A Survey

Nov 27, 2024

Chaoyun Zhang, Shilin He, Jiaxu Qian, Bowen Li, Liqun Li, Si Qin, Yu Kang, Minghua Ma, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang

323

GUI（Graphical User Interfaces）は長い間、人間とコンピュータのインタラクションに中心的な役割を果たしており、直感的で視覚的な方法でデジタルシステムにアクセスし、相互作用する手段を提供してきました。特に多様なモダリティモデルを含むLLM（Large Language Models）の出現は、GUIの自動化の新時代をもたらしました。これらは、自然言語理解、コード生成、および視覚処理において優れた能力を示しています。これにより、複雑なGUI要素を解釈し、自然言語の指示に基づいて自律的にアクションを実行することができる新世代のLLM搭載GUIエージェントが可能となりました。これらのエージェントは、ユーザーが簡単な会話コマンドを通じて複雑な多段階のタスクを実行できるようにし、パラダイムシフトを表しています。これらのアプリケーションは、ウェブナビゲーション、モバイルアプリの相互作用、およびデスクトップ自動化を横断し、ソフトウェアとのインタラクション方法を革新する変革的なユーザーエクスペリエンスを提供しています。この新興分野は、研究と産業の両面で急速に進化しています。このトレンドを構造化した理解を提供するため、本論文では、LLM搭載GUIエージェントの包括的な調査を行い、その歴史的な進化、中核コンポーネント、および高度な技術を探求します。既存のGUIエージェントフレームワーク、特化したGUIエージェントのトレーニング用データの収集と利用、GUIタスク向けの大規模なアクションモデルの開発、および有効性を評価するために必要な評価尺度やベンチマークなど、研究課題に取り組みます。さらに、これらのエージェントによって可能となる新興アプリケーションについても検討します。この調査を通じて、研究の欠陥を特定し、この分野での将来の進展のためのロードマップを概説します。基礎知識と最新の進歩を統合することで、この研究は、研究者と実務者の両方が課題を克服し、LLM搭載GUIエージェントのフルポテンシャルを引き出す手助けとなることを目指しています。

ゼロショットカスタマイズ画像生成のための拡散自己蒸留
Diffusion Self-Distillation for Zero-Shot Customized Image Generation

Nov 27, 2024

Shengqu Cai, Eric Chan, Yunzhi Zhang, Leonidas Guibas, Jiajun Wu, Gordon Wetzstein

166

テキストから画像への拡散モデルは印象的な結果を生み出しますが、細かい制御を望むアーティストにとってはfrustratingなツールです。例えば、特定のインスタンスの画像を新しい文脈で生成する「identity-preserving generation」のような一般的な用途があります。この設定は、画像+テキスト条件付き生成モデルにとって適したものであり、その他のタスク（例：relighting）も同様です。ただし、このようなモデルを直接トレーニングするための高品質なペアデータが不足しています。私たちは、Diffusion Self-Distillationという手法を提案します。これは、事前にトレーニングされたテキストから画像へのモデルを使用して、テキスト条件付きの画像から画像へのタスクのためのデータセットを生成する方法です。最初に、テキストから画像への拡散モデルのコンテキスト内生成能力を活用して、画像のグリッドを作成し、Visual-Languageモデルの支援を受けて大規模なペアデータセットをキュレーションします。その後、キュレーションされたペアデータセットを使用して、テキストから画像へのモデルをテキスト+画像から画像へのモデルに微調整します。Diffusion Self-Distillationが既存のゼロショット手法を凌駕し、幅広いidentity-preservation生成タスクで個別チューニング技術と競合し、テスト時の最適化を必要とせずに優れた性能を発揮することを示します。

3D凸スプラッティング：3Dスムース凸体を用いた輝度場レンダリング
3D Convex Splatting: Radiance Field Rendering with 3D Smooth Convexes

Nov 22, 2024

Jan Held, Renaud Vandeghen, Abdullah Hamdi, Adrien Deliege, Anthony Cioppa, Silvio Giancola, Andrea Vedaldi, Bernard Ghanem, Marc Van Droogenbroeck

165

最近の放射輝度場再構築の進歩、例えば3Dガウススプラッティング（3DGS）は、ガウス原理の組成でシーンを表現することにより、高品質な新しい視点合成と高速レンダリングを達成しています。しかし、3Dガウスはシーン再構築にいくつかの制限を持っています。硬いエッジを正確に捉えることは、ガウスの数を大幅に増やさないと難しく、大きなメモリフットプリントを作成します。さらに、彼らは平坦な表面を表現するのに苦労し、空間に拡散します。手作りの正則化子がないと、実際の表面の周りに不規則に分散する傾向があります。これらの問題を回避するために、私たちは3Dスムース凸スプラッティング（3DCS）という新しい手法を導入します。これは、幾何学的に意味のある放射輝度場をマルチビュー画像からモデリングするために3Dスムース凸体を原始体として利用します。スムースな凸形状はガウスよりも柔軟性があり、少ない原始体を使用して、硬いエッジと密なボリュームを持つ3Dシーンをより良く表現できます。私たちの効率的なCUDAベースのラスタライザによって強化された3DCSは、Mip-NeRF360、Tanks and Temples、Deep Blendingなどのベンチマークで3DGSに比べて優れたパフォーマンスを達成します。具体的には、PSNRで最大0.81、LPIPSで0.026の向上を達成し、高速なレンダリング速度を維持しつつ必要な原始体の数を減らします。私たちの結果は、3Dスムース凸スプラッティングが高品質なシーン再構築と新しい視点合成の新たな標準になる可能性を示しています。プロジェクトページ：convexsplatting.github.io。

DiffusionDrive: 端から端までの自律運転のための切り捨てられた拡散モデル
DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

Nov 22, 2024

Bencheng Liao, Shaoyu Chen, Haoran Yin, Bo Jiang, Cheng Wang, Sixu Yan, Xinbang Zhang, Xiangyu Li, Ying Zhang, Qian Zhang, Xinggang Wang

152

最近、拡散モデルがロボットのポリシー学習において強力な生成技術として台頭し、複数モードの行動分布をモデリングする能力を持っています。その能力を活用してエンドツーエンドの自律走行に向けた方向性は有望です。ただし、ロボットの拡散ポリシーにおける多数のノイズ除去ステップと、よりダイナミックでオープンワールドな交通シーンの性質は、リアルタイムの速度で多様な運転アクションを生成する際に重大な課題を提起します。これらの課題に対処するために、私たちは新しい切り詰められた拡散ポリシーを提案します。このポリシーは事前の複数モードアンカーを組み込み、拡散スケジュールを切り詰めることで、モデルがアンカー付きガウス分布から複数モードの運転アクション分布へのノイズ除去を学習できるようにします。さらに、条件付きシーンコンテキストとの相互作用を強化する効率的なカスケード拡散デコーダを設計します。提案されたモデルであるDiffusionDriveは、バニラ拡散ポリシーに比べてノイズ除去ステップを10倍削減し、わずか2ステップで優れた多様性と品質を提供します。計画志向のNAVSIMデータセットにおいて、ResNet-34バックボーンを用いたDiffusionDriveは、装飾を施さずに88.1 PDMSを達成し、新記録を樹立します。また、NVIDIA 4090上で45 FPSのリアルタイム速度で実行されます。困難なシナリオに対する質的結果は、DiffusionDriveが堅牢に多様な運転アクションを生成できることをさらに確認しています。コードとモデルはhttps://github.com/hustvl/DiffusionDrive で入手可能です。

Make-It-Animatable: アニメーション準備が整った3Dキャラクターを制作するための効率的なフレームワーク
Make-It-Animatable: An Efficient Framework for Authoring Animation-Ready 3D Characters

Nov 27, 2024

Zhiyang Guo, Jinxu Xiang, Kai Ma, Wengang Zhou, Houqiang Li, Ran Zhang

144

現代のクリエイティブ産業において、3Dキャラクターは不可欠ですが、それらをアニメーション可能にするには、しばしばリギングやスキニングなどの手作業が必要です。既存の自動リギングツールは、手動注釈の必要性、剛性スケルトンのトポロジー、多様な形状やポーズに対する限られた一般化など、いくつかの制約に直面しています。代替手段として、リギングされたテンプレートメッシュに事前にバインドされたアニメーション可能なアバターを生成する方法があります。しかしこの方法はしばしば柔軟性に欠け、通常はリアルな人間の形状に限定されます。これらの問題に対処するため、私たちはMake-It-Animatableを提案します。この革新的なデータ駆動型手法は、形状やポーズに関係なく、任意の3Dヒューマノイドモデルを1秒未満でキャラクターアニメーション用に準備します。当社の統一フレームワークは、高品質なブレンドウェイト、ボーン、およびポーズ変換を生成します。粒子ベースの形状オートエンコーダを組み込むことで、当社の手法はメッシュや3Dガウススプラットなど、さまざまな3D表現をサポートします。さらに、粗から細の表現と構造に配慮したモデリング戦略を採用することで、非標準のスケルトン構造を持つキャラクターにおいても、精度と堅牢性の両方を確保します。当社のフレームワークの有効性を検証するために、幅広い実験を実施しました。既存の手法と比較して、当社の手法は品質と速度の両方で著しい改善を示しています。

UniPose: 人物ポーズの理解、生成、編集のための統合されたマルチモーダルフレームワーク
UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing

Nov 25, 2024

Yiheng Li, Ruibing Hou, Hong Chang, Shiguang Shan, Xilin Chen

134

人間のポーズはデジタル時代において重要な役割を果たしています。最近の研究は人間のポーズの理解と生成において印象的な進歩を達成してきましたが、しばしば単一の制御信号のみをサポートし、孤立して動作するため、実世界のシナリオでの適用が制限されています。本論文では、画像、テキスト、および3D SMPLポーズなど、さまざまなモダリティにわたる人間のポーズを理解、生成、編集するために、大規模言語モデル（LLMs）を用いるUniPoseフレームワークを提案します。具体的には、3Dポーズを離散的なポーズトークンに変換するためのポーズトークナイザを適用し、統一された語彙内でLLMにシームレスに統合することが可能となります。さらに、UniPoseを細かいポーズ知覚能力を向上させるために、ポーズ固有のビジュアルエンコーダを含む複数のビジュアルエンコーダを活用しています。統一された学習戦略から利益を得ることで、UniPoseは異なるポーズ関連タスク間で知識を効果的に転送し、見慣れないタスクに適応し、拡張された能力を示します。この研究は、ポーズの理解、生成、編集のための汎用フレームワークを構築する初の試みとなります。幅広い実験により、UniPoseはさまざまなポーズ関連タスクで競争力のある、さらには優れたパフォーマンスを発揮することが示されています。

共同デコーディングは、視覚的な自己回帰モデリングを効率的にします。
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient

Nov 26, 2024

Zigeng Chen, Xinyin Ma, Gongfan Fang, Xinchao Wang

122

画像生成の急速に進化する分野において、Visual Auto-Regressive（VAR）モデリングは革新的な次元予測手法としてかなりの注目を集めています。このパラダイムは、効率性、拡張性、およびゼロショットの汎化において著しい改善をもたらします。しかし、VARの本質的なコースからファインな性質は、長いトークンシーケンスを導入し、メモリ消費と計算上の冗長性を招くことになります。これらのボトルネックに対処するために、我々はCollaborative Decoding（CoDe）を提案します。これは、VARフレームワークに適した新しい効率的なデコーディング戦略です。CoDeは、大規模なスケールでのパラメータ要求の大幅な削減と、異なるスケール間での排他的な生成パターンに基づいています。これらの洞察に基づき、マルチスケール推論プロセスを大規模なモデルと小規模なモデルの間でシームレスに協力するように分割します。大規模なモデルは、小規模なスケールで低周波数コンテンツを生成することに特化した「起案者」として機能し、一方、小規模なモデルは、大規模なスケールで高周波数の詳細を予測することに専念する「磨き上げ者」として機能します。この協力により、CoDeは驚異的な効率を実現し、品質にほとんど影響を与えません。CoDeは1.7倍のスピードアップを達成し、メモリ使用量を約50％削減し、画像品質を1.95から1.98にわずかなFID増加で維持します。起案ステップがさらに減少すると、CoDeは印象的な2.9倍の加速比を達成し、NVIDIA 4090 GPU1枚で256x256解像度で41枚/sに到達し、品質のFIDを2.27で維持します。コードはhttps://github.com/czg1225/CoDe で入手可能です。

DreamCache: 特徴キャッシングを介したフィントゥーニング不要の軽量個人化画像生成
DreamCache: Finetuning-Free Lightweight Personalized Image Generation via Feature Caching

Nov 26, 2024

Emanuele Aiello, Umberto Michieli, Diego Valsesia, Mete Ozay, Enrico Magli

123

個人化画像生成には、異なる文脈で制御された生成を可能にするために、参照主題の中核的な特徴を捉えるテキストから画像生成モデルが必要です。既存の手法は、複雑なトレーニング要件、高い推論コスト、限られた柔軟性、またはこれらの問題の組み合わせによる課題に直面しています。本論文では、効率的で高品質な個人化画像生成のためのスケーラブルなアプローチであるDreamCacheを紹介します。DreamCacheは、事前に学習された拡散ノイザーの一つのタイムステップと、一部のレイヤーからの少数の参照画像特徴をキャッシュすることにより、軽量で訓練された調整アダプターを介して生成された画像特徴の動的調整を可能にします。DreamCacheは、追加のパラメータが桁違いに少なく、既存のモデルよりも計算効率が高く、汎用性があり、最先端の画像とテキストの整合性を実現しています。

ChatRex: 共同認識と理解のためのマルチモーダルLLMの取りまとめ
ChatRex: Taming Multimodal LLM for Joint Perception and Understanding

Nov 27, 2024

Qing Jiang, Gen luo, Yuqin Yang, Yuda Xiong, Yihao Chen, Zhaoyang Zeng, Tianhe Ren, Lei Zhang

103

知覚と理解はコンピュータビジョンの二大要素です。マルチモーダル大規模言語モデル（MLLM）は驚異的な視覚理解能力を示していますが、正確な知覚能力が不足しているという議論もあります。例えば、最先端モデルQwen2-VLはCOCOデータセットでわずか43.9の再現率しか達成しておらず、知覚と理解の組み合わせを必要とする多くのタスクが制限されています。本研究では、この知覚のギャップをモデル設計とデータ開発の観点から埋めることを目指します。まず、デカップルされた知覚設計を持つMLLMであるChatRexを紹介します。LLMが直接ボックス座標を予測する代わりに、普遍的な提案ネットワークからの出力ボックスをLLMに供給し、検出結果を表すために対応するボックスインデックスを出力させることで、回帰タスクを検索ベースのタスクに変え、LLMがより熟練して処理するようにします。データの観点からは、完全自動化されたデータエンジンを構築し、知覚と理解の共同トレーニングをサポートする複数の粒度を持つRexverse-2Mデータセットを構築します。標準の2段階トレーニングの後、ChatRexは強力な知覚能力を示し、マルチモーダル理解パフォーマンスを維持します。これら2つの能力の組み合わせは同時に多くの魅力的なアプリケーションを開放し、MLLMにおける知覚と理解の補完的な役割を示しています。コードはhttps://github.com/IDEA-Research/ChatRex で入手可能です。

マルチモーダル制御を用いたビデオガイドフリーサウンド生成
Video-Guided Foley Sound Generation with Multimodal Controls

Nov 26, 2024

Nov 27, 2024

Yifan Zhang

編集を取り除いても、私の顔は留まらない：悪意ある生成編集に対する個人バイオメトリック防御
Edit Away and My Face Will not Stay: Personal Biometric Defense against Malicious Generative Editing

Nov 25, 2024

Hanhui Wang, Yihua Zhang, Ruizheng Bai, Yue Zhao, Sijia Liu, Zhengzhong Tu