翻訳付きの日次キュレーションされたAI研究論文
最近、ドラッグベースの画像編集はそのインタラクティブ性と精度から人気を集めています。しかし、テキストから画像を生成するモデルが1秒以内にサンプルを生成できる能力にも関わらず、ドラッグ編集はユーザーのインタラクションを正確に反映しつつ画像コンテンツを維持するという課題により遅れています。既存のアプローチの一部は、画像ごとの計算集約的な最適化や複雑なガイダンスベースの手法に依存しており、移動可能な領域やテキストプロンプトなどの追加入力が必要となり、それにより編集プロセスのインタラクティブ性が損なわれています。私たちは、最適化フリーのパイプラインであるInstantDragを紹介します。この手法は、インタラクティブ性と速度を向上させ、画像とドラッグ指示のみを入力として必要とします。InstantDragは、2つの注意深く設計されたネットワークで構成されています。それは、ドラッグ条件つきの光流生成器(FlowGen)と光流条件つきの拡散モデル(FlowDiffusion)です。InstantDragは、動き生成と動き条件つき画像生成のタスクを分解することで、実世界のビデオデータセットでのドラッグベースの画像編集のための動きダイナミクスを学習します。私たちは、顔のビデオデータセットや一般的なシーンでの実験を通じて、InstantDragがマスクやテキストプロンプトなしで高速で写真のような編集を行う能力を示します。これらの結果は、私たちのアプローチがドラッグベースの画像編集を処理する効率性を強調し、インタラクティブでリアルタイムなアプリケーションにとって有望な解決策となることを示しています。
様々なキャラクターの絵をアニメーション化することは、魅力的なビジュアルコンテンツの作成作業です。単一のキャラクターの絵が与えられた場合、既存のアニメーション手法は平面の2Dモーションに限定されており、したがって3D効果が欠けています。代替案として、キャラクターの絵から3Dモデルをプロキシとして再構築し、その上に3Dモーションデータを再ターゲットすることが考えられます。しかし、既存の画像から3Dへの手法は、外観やジオメトリの点でアマチュアのキャラクターの絵にはうまく適用できませんでした。キャラクターの絵に一般的に存在する輪郭線が、その視点に依存するため、テクスチャ合成において著しい曖昧さをもたらすことが観察されました。さらに、単一の線で表現される細い領域(例:棒人形の細い手足)は、その繊細な構造のために再構築が困難です。これらの問題に対処するため、私たちは新しいシステムであるDrawingSpinUpを提案し、キャラクターの絵に命を吹き込み、自由にスピンアップし、跳躍し、ヒップホップダンスさえ披露できるようにします。外観の改善には、最初に視点に依存する輪郭線を除去し、その後、再構築されたキャラクターに再レンダリングするための取り除き-復元戦略を採用します。ジオメトリの改善には、単一の線の輪郭で表される細い構造を洗練するために、骨格ベースの細線化変形アルゴリズムを開発します。実験評価と知覚ユーザースタディにより、提案された手法が既存の2Dおよび3Dアニメーション手法を凌駕し、単一のキャラクターの絵から高品質な3Dアニメーションを生成することが示されました。コードと生成されたアニメーションについては、弊社のプロジェクトページ(https://lordliang.github.io/DrawingSpinUp)をご参照ください。
オープンボキャブラリー検出(OVD)は、事前に定義されたカテゴリーを超えるオブジェクトを検出することを目的としています。YOLOシリーズを取り入れた先駆的なモデルとして、YOLO-Worldは、速度と効率を重視するシナリオに適しています。しかし、その性能は、二次の複雑性と制限された誘導受容野を引き起こすネック特徴融合メカニズムによって妨げられています。これらの制限に対処するために、私たちはMamba-YOLO-Worldを提案します。これは、提案されたMambaFusion Path Aggregation Network(MambaFusion-PAN)をネックアーキテクチャとして採用した、革新的なYOLOベースのOVDモデルです。具体的には、並列誘導選択走査アルゴリズムと直列誘導選択走査アルゴリズムからなる、線形複雑性とグローバルに誘導された受容野を持つ、革新的な状態空間モデルベースの特徴融合メカニズムを導入しています。これは、マルチモーダル入力シーケンスとマンバ隠れ状態を活用して、選択的走査プロセスを誘導します。実験により、当社のモデルが、ゼロショットおよびファインチューニング設定の両方で、COCOおよびLVISのベンチマークで元のYOLO-Worldを上回ることが示されました。さらに、より少ないパラメータとFLOPsで、既存の最先端のOVD手法を凌駕しています。
マルチビューデータに対する再点灯放射輝度場の再構築は、ほとんどが単一の照明条件下でキャプチャされるため、極めて過制約です。特に、複数のオブジェクトを含む完全なシーンに対しては困難です。私たちは、2D画像拡散モデルから抽出された事前情報を活用して、単一の照明データを使用して再点灯可能な放射輝度場を作成する手法を紹介します。まず、光の方向によって条件付けられたマルチ照明データセットで2D拡散モデルを微調整し、直接定義された光の方向から単一の照明キャプチャをリアルながらも一貫性のないマルチ照明データセットに拡張します。この拡張されたデータを使用して、3Dガウススプラットで表現される再点灯可能な放射輝度場を作成します。低周波の照明のための光の方向の直接制御を可能にするために、外観は光の方向にパラメータ化されたマルチレイヤーパーセプトロンで表現されます。マルチビューの一貫性を強化し、不正確さを克服するために、画像ごとに補助的な特徴ベクトルを最適化します。単一の照明下での合成および実際のマルチビューデータに関する結果を示し、2D拡散モデルの事前情報を活用して完全なシーンに対するリアルな3D再点灯を可能にすることを示します。プロジェクトサイト: https://repo-sam.inria.fr/fungraph/generative-radiance-field-relighting/
ボリュメトリックビデオは、視覚メディアにおける革新的な進歩を表しており、ユーザーが没入型仮想体験を自由にナビゲートし、デジタルと現実世界との間の隔たりを狭めることができます。ただし、既存のワークフローにおいてメッシュシーケンスを安定化させるための広範な手動介入と、過剰に大きなアセットの生成が広く採用を妨げています。本論文では、複雑な人間のパフォーマンスをリアルタイムかつ高品質に再生するための新しいガウスベースのアプローチであるDualGSを提案します。DualGSの主要なアイデアは、対応するスキンとジョイントのガウス分布を使用して動きと外観を別々に表現することです。この明示的な分離により、動きの冗長性を大幅に削減し、時間的な整合性を向上させることができます。最初のフレームでDualGSを初期化し、スキンのガウス分布をジョイントのガウス分布にアンカーし始めます。その後、フレームごとの人間のパフォーマンスモデリングのための粗から細のトレーニング戦略を採用します。これには、全体的な動き予測のための粗いアライメントフェーズと、頑健なトラッキングと高品質なレンダリングのための細かい最適化が含まれます。ボリュメトリックビデオをVR環境にシームレスに統合するために、動きはエントロピー符号化を使用して効率的に圧縮し、外観はコーデック圧縮と永続的なコードブックを組み合わせて圧縮します。このアプローチにより、フレームあたり約350KBのストレージしか必要とせず、最大120倍の圧縮率が達成されます。私たちの表現の効果を証明するために、VRヘッドセットでフォトリアルなフリービュー体験を通じて、ミュージシャンのパフォーマンスを没入型に観賞し、演奏者の指先のリズムを感じることができるようになります。
近年、オーディオの修復は現代社会においてますます重要となっています。これは、高度な再生デバイスによって可能になる高品質な聴覚体験への需要だけでなく、生成オーディオモデルの能力向上によって高忠実度のオーディオが必要とされるためです。一般的に、オーディオの修復は、損傷を受けた入力から歪みのないオーディオを予測する作業と定義され、しばしばGANフレームワークを使用して知覚と歪みをバランスよく訓練します。オーディオの劣化は主に中高周波数帯域に集中しているため、特にコーデックによるものがあり、低周波数情報を保持しつつ、高品質な中高周波数コンテンツを正確に再構築することができるジェネレータの設計において主要な課題があります。高サンプルレートの音楽分離、音声強調、およびオーディオコーデックモデルの最近の進歩に触発され、高サンプルレートのオーディオ修復用に設計された生成モデルであるApolloを提案します。Apolloは、異なる周波数帯域間の関係をモデリングするための明示的な周波数帯域分割モジュールを使用し、より一貫性があり高品質な修復オーディオを可能にします。MUSDB18-HQおよびMoisesDBデータセットで評価された結果、Apolloはさまざまなビットレートや音楽ジャンルにおいて既存のSR-GANモデルを一貫して上回り、特に複数の楽器やボーカルの混合物が含まれる複雑なシナリオにおいて優れた性能を発揮します。Apolloは、音楽の修復品質を大幅に向上させながら、計算効率を維持しています。Apolloのソースコードは、https://github.com/JusperLee/Apollo で公開されています。
最近の生成モデルの進歩により、画像生成や編集が革新され、これらのタスクが専門外の人々にもアクセス可能になりました。本論文では、特に局所画像編集に焦点を当て、特に緩く指定された領域に新しいコンテンツを追加するタスクに焦点を当てます。既存の方法は、しばしば正確なマスクや位置の詳細な説明が必要であり、これは手間がかかりエラーを起こしやすいです。本研究では、単一の参照点(コンテンツの説明に加えて)のみを必要とする画期的なアプローチであるClick2Maskを提案します。このアプローチでは、Blended Latent Diffusion(BLD)プロセス中に、マスクされたCLIPベースの意味損失によって誘導された点の周囲にマスクが動的に成長します。Click2Maskは、セグメンテーションベースやファインチューニングに依存する方法の制約を超え、よりユーザーフレンドリーで文脈に即した解決策を提供します。実験により、Click2Maskがユーザーの努力を最小限に抑え、人間の判断と自動メトリクスの両方において、SoTA方法に比べて競争力のあるまたは優れた局所画像操作の結果を提供することが示されました。主な貢献は、ユーザー入力の簡素化、既存のセグメントに制約されない自由なオブジェクトの追加の可能性、および他の編集方法内での動的マスクアプローチの統合可能性です。