翻訳付きの日次キュレーションされたAI研究論文
拡散モデルを用いたパーソナライズド画像生成における最近の進展は目覚ましいものがあります。しかし、オープンドメインかつファインチューニングを必要としないパーソナライズド画像生成の分野での開発は、比較的緩やかなペースで進んでいます。本論文では、Subject-Diffusionという新しいオープンドメインのパーソナライズド画像生成モデルを提案します。このモデルは、テスト時のファインチューニングを必要としないだけでなく、単一の参照画像のみを必要とし、任意のドメインにおける単一または複数被写体のパーソナライズド生成をサポートします。まず、自動データラベリングツールを構築し、LAION-Aestheticsデータセットを使用して、7600万枚の画像とそれに対応する被写体検出バウンディングボックス、セグメンテーションマスク、テキスト記述からなる大規模データセットを構築しました。次に、粗い位置情報と細かい参照画像制御を組み込むことで、テキストと画像の意味を統合し、被写体の忠実度と汎用性を最大化する新しい統一フレームワークを設計しました。さらに、複数被写体生成をサポートするために、アテンション制御メカニズムも採用しています。広範な定性的および定量的な結果は、我々の手法が単一、複数、および人間がカスタマイズした画像生成において、他のSOTAフレームワークを凌駕することを示しています。詳細については、https://oppo-mente-lab.github.io/subject_diffusion/{プロジェクトページ}をご参照ください。
ニューラルラジアンスフィールド(NeRF)は、メディア表現の主要な手法となる可能性を秘めています。NeRFの学習は決して容易な作業ではないため、そのモデルの著作権保護は優先すべき課題です。本論文では、可能な著作権保護ソリューションの利点と欠点を分析し、NeRFモデルの著作権を保護するために、NeRF内の元の色表現を透かし入りの色表現に置き換えることを提案します。さらに、歪みに強いレンダリングスキームを設計し、NeRFの2Dレンダリングにおいてロバストなメッセージ抽出を保証します。提案手法は、NeRFモデルの著作権を直接保護しつつ、他の選択肢と比較しても高いレンダリング品質とビット精度を維持することができます。
ニューラルラジアンスフィールド(NeRF)の最近の進展により、高精度な3D顔再構成と新規視点合成が可能となり、その操作も3Dビジョンにおける重要な課題となっています。しかし、既存の操作手法は、ユーザー提供のセマンティックマスクや手動属性検索など、非専門家のユーザーには適さない多大な人的労力を必要とします。代わりに、我々のアプローチは、NeRFで再構成された顔を操作するために単一のテキストのみを必要とするように設計されています。これを実現するため、まず、動的シーン上でシーンマニピュレータ(潜在コード条件付き変形可能NeRF)を訓練し、潜在コードを使用して顔の変形を制御します。しかし、単一の潜在コードでシーン変形を表現することは、異なるインスタンスで観察される局所的な変形を合成するには不向きです。そこで、我々が提案する位置条件付きアンカーコンポジタ(PAC)は、空間的に変化する潜在コードで操作されたシーンを表現することを学習します。その後、シーンマニピュレータによるレンダリングは、CLIP埋め込み空間でのターゲットテキストとの高いコサイン類似性を達成するように最適化され、テキスト駆動の操作を実現します。我々の知る限り、このアプローチはNeRFで再構成された顔のテキスト駆動操作に初めて取り組んだものです。広範な結果、比較、およびアブレーションスタディにより、我々のアプローチの有効性が実証されています。
拡散モデルの画像生成における顕著な成功にもかかわらず、サンプリングの遅さは依然として解決すべき課題です。サンプリングプロセスを加速するため、これまでの研究では拡散サンプリングをODE/SDEとして再定式化し、高次の数値解法を導入してきました。しかし、これらの手法は特にサンプリングステップ数が少ない場合に発散アーティファクトを生じやすく、達成可能な加速に制限をかけています。本論文では、これらのアーティファクトの潜在的な原因を調査し、これらの手法の安定領域が小さいことが主な原因である可能性を示唆します。この問題に対処するため、我々は2つの新しい技術を提案します。第一の技術は、最適化の改善に有効な手法として知られるHeavy Ball(HB)モーメンタムを既存の拡散数値解法に組み込み、その安定領域を拡大するものです。また、結果として得られる手法が一次収束することを証明します。第二の技術はGeneralized Heavy Ball(GHVB)と呼ばれ、精度とアーティファクト抑制の間の可変的なトレードオフを提供する新しい高次手法を構築します。実験結果は、我々の技術がアーティファクトの削減と画質の向上に極めて有効であり、ピクセルベースおよび潜在ベースの拡散モデルにおける低ステップサンプリングにおいて、最先端の拡散ソルバーを凌駕することを示しています。本研究は、将来の拡散研究における数値解法の設計に新たな洞察を提供します。