翻訳付きの日次キュレーションされたAI研究論文
本研究では、挑戦的な人間のダンス動画における2次元の人体動作と表情転送のための拡散モデル「MagicDance」を提案します。具体的には、新しいポーズシーケンスに基づいて任意のターゲット人物のダンス動画を生成しつつ、その人物の同一性を維持することを目指します。この目的のために、人間の動作と外観(例えば、表情、肌の色、服装)を分離する2段階の学習戦略を提案します。これには、外観制御ブロックの事前学習と、同一データセットの人間のダンスポーズに対する外観-ポーズ-結合制御ブロックの微調整が含まれます。我々の新しい設計により、時間的に一貫した上半身、顔の属性、さらには背景を含む堅牢な外観制御が可能になります。また、このモデルは、画像拡散モデルの事前知識を活用することで、多様な人間の属性を持つ追加データの微調整を必要とせずに、未見の人物や複雑な動作シーケンスにもうまく一般化します。さらに、提案されたモデルは使いやすく、Stable Diffusionのプラグインモジュール/拡張として考えることができます。また、このモデルはゼロショットの2次元アニメーション生成能力も示し、一つの人物から別の人物への外観転送だけでなく、ポーズ入力のみを与えられた場合の漫画風のスタイライゼーションも可能にします。TikTokデータセットにおける広範な実験により、我々の優れた性能が実証されています。
大規模言語モデル(LLM)ベースの音声合成は、ゼロショット音声合成において広く採用されています。しかし、これらは大規模なデータを必要とし、推論速度が遅い、ロバスト性に欠けるといった従来の自己回帰型音声モデルと同じ制約を抱えています。本論文では、テキスト読み上げ(TTS)および音声変換(VC)のための高速かつ強力なゼロショット音声合成器であるHierSpeech++を提案します。階層的音声合成フレームワークが合成音声のロバスト性と表現力を大幅に向上させることが確認されました。さらに、ゼロショット音声合成シナリオにおいても、合成音声の自然さと話者類似性を大幅に改善しました。テキスト読み上げでは、テキスト表現とプロンプトに基づいて自己教師あり音声表現とF0表現を生成するテキスト・トゥ・ベクトルフレームワークを採用しています。その後、HierSpeech++は生成されたベクトル、F0、および音声プロンプトから音声を生成します。さらに、16 kHzから48 kHzへの高効率な音声超解像フレームワークを導入しました。実験結果から、階層的変分自己符号化器がLLMベースおよび拡散ベースのモデルを上回る強力なゼロショット音声合成器であることが示されました。さらに、初めて人間レベルの品質を達成したゼロショット音声合成を実現しました。音声サンプルとソースコードはhttps://github.com/sh-lee-prml/HierSpeechppで公開されています。
3Dガウススプラッティングから精密かつ極めて高速にメッシュを抽出する手法を提案します。ガウススプラッティングは、NeRFと比べて大幅に高速に学習できながら現実的なレンダリングを実現するため、最近非常に人気を集めています。しかし、最適化後に数百万の微小な3Dガウシアンが無秩序に配置される傾向があるため、これまでメッシュを抽出する手法は提案されていませんでした。私たちの最初の重要な貢献は、ガウシアンがシーンの表面に適切に整列するよう促す正則化項です。次に、この整列を利用してガウシアンからメッシュを抽出する手法を導入します。この手法はPoisson再構成を用いており、高速でスケーラブルであり、詳細を保持します。これは、ニューラルSDFからメッシュを抽出するために通常用いられるMarching Cubesアルゴリズムとは対照的です。最後に、オプションのリファインメント戦略を導入します。この戦略では、ガウシアンをメッシュの表面にバインドし、ガウススプラッティングレンダリングを通じてこれらのガウシアンとメッシュを共同で最適化します。これにより、ガウシアン自体を操作する代わりにメッシュを操作することで、従来のソフトウェアを使用してガウシアンの編集、スカルプト、リギング、アニメーション、合成、リライティングを容易に行うことができます。私たちの手法では、現実的なレンダリングのための編集可能なメッシュを数分で取得できます。これは、ニューラルSDFの最先端手法では数時間かかるのに対し、より優れたレンダリング品質を提供します。
テキストから画像への拡散モデルにおける最近の目覚ましい進展にもかかわらず、高品質な画像を得るためには、それらを使用する専門知識を身につけた人間によるプロンプトエンジニアリングが必要な場合が多い。本研究では、NeuroPromptsを提案する。これは、テキストから画像モデルが生成する画像の品質を向上させるために、ユーザーのプロンプトを自動的に強化する適応型フレームワークである。我々のフレームワークは、人間のプロンプトエンジニアが作成するプロンプトに類似したプロンプトを生成するように適応された事前学習済み言語モデルを用いた制約付きテキストデコーディングを利用する。このアプローチにより、より高品質なテキストから画像への生成が可能となり、制約条件の指定を通じてユーザーがスタイル的特徴を制御できるようになる。我々は、Stable Diffusionを使用したプロンプト強化と画像生成のためのインタラクティブアプリケーションを作成することで、このフレームワークの有用性を実証する。さらに、テキストから画像生成のための人間が作成した大規模なプロンプトデータセットを用いた実験を行い、我々のアプローチが自動的に強化されたプロンプトを生成し、優れた画像品質をもたらすことを示す。我々は、NeuroPromptsのコード、スクリーンキャスト動画デモ、およびライブデモインスタンスを公開している。
我々は、拡散モデルによる画像生成において属性を精密に制御可能な解釈可能なコンセプトスライダーを作成する手法を提案する。本手法は、あるコンセプトに対応する低ランクのパラメータ方向を特定しつつ、他の属性への干渉を最小化する。スライダーは少数のプロンプトまたはサンプル画像を用いて作成されるため、テキストまたは視覚的コンセプトのいずれに対してもスライダー方向を生成可能である。コンセプトスライダーはプラグアンドプレイ方式であり、効率的に組み合わせたり連続的に調整したりできるため、画像生成を精密に制御できる。従来の編集技術と比較した定量的実験において、我々のスライダーはより強力なターゲット編集を実現し、干渉が少ないことを示す。天候、年齢、スタイル、表情などのスライダーとその組み合わせを実演する。また、テキストによる記述が困難な視覚的コンセプトを直感的に編集するため、StyleGANの潜在変数を転送する方法を示す。さらに、本手法がStable Diffusion XLにおける物体の変形修復や歪んだ手の修正といった継続的な品質問題の解決に役立つことを確認した。コード、データ、および学習済みスライダーはhttps://sliders.baulab.info/で公開している。
本論文では、PhysGaussianという新しい手法を紹介する。この手法は、物理的に基づいたニュートン力学を3Dガウシアンにシームレスに統合し、高品質な新規モーション合成を実現する。カスタムのMaterial Point Method (MPM)を採用し、我々のアプローチは3Dガウシアンカーネルに物理的に意味のある運動学的変形と機械的応力属性を付与し、それらを連続体力学の原理に従って進化させる。本手法の特徴は、物理シミュレーションと視覚的レンダリングのシームレスな統合にある。両コンポーネントは同じ3Dガウシアンカーネルを離散表現として利用する。これにより、三角形/四面体メッシュ化、マーチングキューブ、「ケージメッシュ」、またはその他のジオメトリ埋め込みの必要性がなくなり、「見えるものがシミュレートされる(WS^2)」という原理が強調される。本手法は、弾性体、金属、非ニュートン流体、粒状材料など、多様な材料に対して優れた汎用性を示し、新規視点と動きを持つ多様な視覚コンテンツの作成において強力な能力を発揮する。プロジェクトページは以下に掲載されている:https://xpandora.github.io/PhysGaussian/
少数の未配置画像から3Dオブジェクトを再構築し、視覚的な重なりがほとんどない場合でも相対的なカメラポーズを約1.3秒で推定するPose-Free Large Reconstruction Model(PF-LRM)を提案します。PF-LRMは、単一のA100 GPU上で動作する高度にスケーラブルな手法であり、3Dオブジェクトトークンと2D画像トークン間の情報交換にセルフアテンションブロックを利用します。各ビューに対して粗い点群を予測し、微分可能なPerspective-n-Point(PnP)ソルバーを使用してカメラポーズを取得します。約100万オブジェクトの多視点ポーズデータを大量に学習することで、PF-LRMは強力なクロスデータセット汎化能力を示し、様々な未見の評価データセットにおいてポーズ予測精度と3D再構築品質の両方でベースライン手法を大きく上回ります。また、高速なフィードフォワード推論による下流のテキスト/画像から3Dへのタスクにおけるモデルの適用性も実証します。プロジェクトのウェブサイトは以下にあります:https://totoro97.github.io/pf-lrm
近年のテキストからビデオ生成の進展は、拡散モデルの力を活用してテキストプロンプトに基づく視覚的に魅力的なコンテンツを作成することを可能にしました。しかし、これらの手法は通常高い計算コストを伴い、一貫した物理的動きを持つビデオを生成するのに苦労することが多いです。これらの課題に対処するため、我々はGPT4Motionを提案します。これは、GPTのような大規模言語モデルの計画能力、Blenderの物理シミュレーションの強み、およびテキストから画像生成の優れた能力を活用して、ビデオ合成の品質を向上させるトレーニング不要のフレームワークです。具体的には、GPT4MotionはGPT-4を使用してユーザーのテキストプロンプトに基づくBlenderスクリプトを生成し、Blenderの組み込み物理エンジンを駆使してフレーム間で一貫した物理的動きを包含する基本的なシーンコンポーネントを作成します。その後、これらのコンポーネントをStable Diffusionに入力して、テキストプロンプトに沿ったビデオを生成します。剛体の落下と衝突、布のドレープと揺れ、液体の流れといった3つの基本的な物理的動きのシナリオでの実験結果は、GPT4Motionが動きの一貫性とエンティティの整合性を維持しながら効率的に高品質なビデオを生成できることを示しています。GPT4Motionは、テキストからビデオ研究に新たな洞察を提供し、その品質を向上させ、将来の探求の視野を広げます。