翻訳付きの日次キュレーションされたAI研究論文
我々は、MUSEを基盤としたテキストから画像を生成するためのオープンソースで軽量なマスク画像モデル(MIM)であるaMUSEdを紹介します。aMUSEdはMUSEのパラメータ数の10%で構成され、高速な画像生成に焦点を当てています。我々は、テキストから画像生成の主流である潜在拡散モデルと比較して、MIMが十分に探求されていないと考えています。潜在拡散モデルと比べ、MIMは推論ステップが少なく、より解釈可能です。さらに、MIMは単一の画像だけで追加のスタイルを学習するように微調整することができます。我々は、大規模なテキストから画像生成におけるMIMの有効性を実証し、再現可能なトレーニングコードを公開することで、MIMのさらなる探求を促進したいと考えています。また、256x256および512x512解像度で直接画像を生成する2つのモデルのチェックポイントも公開します。
我々は、二者間の会話ダイナミクスに従ってジェスチャーを行う全身のフォトリアルなアバターを生成するフレームワークを提案する。音声入力から、個人の顔、身体、手を含む複数のジェスチャー動作の可能性を出力する。本手法の鍵は、ベクトル量子化によるサンプルの多様性と、拡散モデルによる高周波の詳細を組み合わせることで、よりダイナミックで表現力豊かな動作を生成することにある。生成された動作は、重要なジェスチャーのニュアンス(例:冷笑や薄笑い)を表現できる高度にフォトリアルなアバターを用いて可視化する。この研究を促進するため、フォトリアルな再構築を可能にする初のマルチビュー会話データセットを導入する。実験結果は、本モデルが適切で多様なジェスチャーを生成し、拡散モデルやVQのみの手法を上回ることを示している。さらに、知覚評価により、会話ジェスチャーの微妙な動作の詳細を正確に評価する上で、フォトリアリズム(メッシュとの比較)の重要性が明らかになった。コードとデータセットはオンラインで公開されている。
本論文では、3Dジオメトリとグラフィックスのツールを統合した2D画像編集のための新しいフレームワーク「Image Sculpting」を提案する。このアプローチは、2D空間に限定され、テキスト指示に依存するために曖昧さと制御の限界がある既存の手法とは大きく異なる。Image Sculptingは2Dオブジェクトを3Dに変換し、その3Dジオメトリと直接対話することを可能にする。編集後、これらのオブジェクトは2Dに再レンダリングされ、粗から細への拡張プロセスを通じて元の画像に統合され、高忠実度の結果を生成する。このフレームワークは、ポーズ編集、回転、平行移動、3D合成、彫刻、連続追加といった、正確で定量化可能かつ物理的に妥当な編集オプションをサポートする。これは、生成モデルの創造的自由とグラフィックスパイプラインの精度を組み合わせるための最初の一歩を示すものである。
画像拡散モデルの進歩により、最近では高品質な画像生成が大幅に改善されました。Neural Radiance Fields(NeRF)と組み合わせることで、3D生成において新たな可能性が開かれました。しかし、ほとんどの生成的な3Dアプローチはオブジェクト中心であり、既存のフォトリアルなシーンを編集するには容易ではありません。本論文では、高速で制御可能なNeRFシーン編集とシーン統合型オブジェクト生成のための新しいアプローチであるSIGNeRFを提案します。新しい生成更新戦略により、反復的な最適化を必要とせずに、編集された画像間で3D一貫性が保証されます。深度条件付き拡散モデルは、単一ビューではなく画像グリッドを要求することで、本質的に3D一貫性のあるビューを生成する能力を持っていることがわかりました。これらの知見に基づき、修正画像のマルチビュー参照シートを導入します。本手法は、参照シートに基づいて画像コレクションを一貫して更新し、新しく生成された画像セットで元のNeRFを一括で洗練します。画像拡散モデルの深度条件付けメカニズムを活用することで、編集の空間的位置を細かく制御し、選択された領域または外部メッシュによる形状ガイダンスを適用します。
拡散モデルに基づく歌唱音声変換(SVC)手法は、ターゲットの音色に高い類似性を持つ自然な音声を生成し、顕著な性能を達成しています。しかし、反復的なサンプリングプロセスにより推論速度が遅く、高速化が重要な課題となっています。本論文では、高品質な生成と高速なサンプリングの両立を目指す、一貫性モデルに基づくSVC手法「CoMoSVC」を提案します。まず、SVC用に特別に設計された拡散モデルを教師モデルとし、自己一貫性の特性に基づいて蒸留された学生モデルにより、ワンステップサンプリングを実現します。NVIDIA GTX4090 GPUでの実験結果から、CoMoSVCは最先端(SOTA)の拡散モデルベースのSVCシステムと比較して大幅に高速な推論速度を達成しつつ、主観的および客観的指標の両方において同等または優れた変換性能を実現することが示されました。音声サンプルとコードはhttps://comosvc.github.io/で公開されています。
並列テキスト音声合成モデルは、リアルタイム音声合成に広く応用されており、従来の自己回帰モデルと比較して、より高い制御性と大幅に高速な合成プロセスを提供します。並列モデルは多くの面で利点があるものの、トランスフォーマーなどの完全並列アーキテクチャの性質上、インクリメンタル合成には不向きです。本研究では、Incremental FastPitchを提案します。これは、チャンクベースのFFTブロックによるアーキテクチャの改良、受容野制約付きチャンクアテンションマスクを用いた学習、および固定サイズの過去モデル状態を用いた推論により、高品質なメルチャンクをインクリメンタルに生成可能な新しいFastPitchバリアントです。実験結果から、提案手法は並列FastPitchと同等の音声品質を維持しつつ、大幅に低いレイテンシを実現し、リアルタイム音声アプリケーションにおける応答時間のさらなる短縮が可能であることが示されました。
DSLRカメラは、レンズ間距離を調整したりレンズタイプを交換することで、複数のズームレベルを実現できます。しかし、スマートフォンではスペースの制約によりこれらの手法は適用できません。ほとんどのスマートフォンメーカーはハイブリッドズームシステムを採用しており、一般的に低ズームレベルでのワイド(W)カメラと高ズームレベルでの望遠(T)カメラを組み合わせています。WとTの間のズームレベルをシミュレートするため、これらのシステムはWからの画像をクロップしデジタルアップサンプリングしますが、これにより詳細情報が大幅に失われます。本論文では、モバイルデバイス向けのハイブリッドズーム超解像システムを提案します。このシステムは、WとTの同期したペアのショットをキャプチャし、機械学習モデルを活用してTからWへの詳細情報のアライメントと転送を行います。さらに、被写界深度の不一致、シーンオクルージョン、フローの不確実性、アライメントエラーを考慮した適応型ブレンディング手法を開発します。ドメインギャップを最小化するため、実世界の入力と教師データを収集するデュアルフォンカメラリグを設計しました。本手法はモバイルプラットフォーム上で500msで12メガピクセルの画像を生成し、実世界シナリオでの広範な評価において最先端の手法と比較しても良好な結果を示しています。