翻訳付きの日次キュレーションされたAI研究論文
単一画像から衣服を着た人間を再構築する最近の研究進展にもかかわらず、高レベルの詳細を伴う「見えない領域」を正確に復元することは、注目を集めていない未解決の課題として残っています。既存の手法では、しばしば過度に滑らかな背面表面とぼやけたテクスチャが生成されます。しかし、単一画像から個人のすべての視覚的属性を効果的に捉え、見えない領域(例えば、背面ビュー)を再構築するのに十分な情報をどのように取得するのでしょうか?基盤モデルの力を動機として、TeCHは以下の要素を活用して3D人間を再構築します:1)衣服解析モデルと視覚的質問応答(VQA)を介して自動生成される記述的テキストプロンプト(例えば、衣服、色、髪型)、2)「言い表せない」外観を学習するパーソナライズされた微調整済みテキスト-to-画像拡散モデル(T2I)。高解像度の3D衣服を着た人間を低コストで表現するために、明示的な体形状グリッドと暗黙的な距離場からなるDMTetに基づくハイブリッド3D表現を提案します。記述的プロンプトとパーソナライズされたT2I拡散モデルに導かれ、3D人間の形状とテクスチャは、元の観測に基づく多視点スコア蒸留サンプリング(SDS)と再構築損失を通じて最適化されます。TeCHは、一貫性と繊細なテクスチャ、詳細な全身形状を伴う高忠実度の3D衣服を着た人間を生成します。定量的および定性的な実験により、TeCHが再構築精度とレンダリング品質において最先端の手法を上回ることが示されています。コードは研究目的でhttps://huangyangyi.github.io/techで公開されます。
パーソナライズされたテキスト生成は、近年注目を集めている新興研究分野である。この方向性の研究の多くは、特定のドメインに焦点を当て、独自の特徴量やモデルを設計することに重点を置いている。本研究では、大規模言語モデル(LLM)を用いた汎用的なパーソナライズドテキスト生成のアプローチを提案する。文章教育の実践に着想を得て、パーソナライズド生成のためにLLMを教える多段階・多タスクのフレームワークを開発した。文章指導において、出典からの執筆タスクは、情報の発見、評価、要約、統合、統合といった複数のステップに分解されることが多い。同様に、我々のパーソナライズドテキスト生成アプローチも、検索、ランキング、要約、統合、生成という複数の段階から構成される。さらに、教育現場での観察から得られた知見、すなわち学生の読解力と文章力がしばしば相関しているという事実に基づき、モデルの生成能力をさらに向上させる多タスク設定を導入した。我々は、異なる代表的なドメインをカバーする3つの公開データセットでこのアプローチを評価し、様々なベースラインと比較して大幅な改善を示す結果を得た。
近年、拡散モデルの台頭に伴い、テキストから動画を生成する技術が注目を集めています。しかし、その重要な課題として、生成された動画にちらつきやアーティファクトが生じやすいことが挙げられます。本研究では、動画生成における内容の一貫性を向上させるため、デュアルストリーム拡散ネット(DSDN)を提案します。具体的には、設計した2つの拡散ストリーム、すなわち動画コンテンツブランチとモーションブランチは、それぞれの独立した空間で動作し、個別の動画バリエーションやコンテンツを生成するだけでなく、私たちが設計したクロストランスフォーマーインタラクションモジュールを活用して、コンテンツとモーションの領域間で適切に整合させることで、生成される動画の滑らかさを向上させます。さらに、動画のモーション操作を容易にするため、モーション分解器と結合器も導入しました。定性的および定量的な実験により、本手法がちらつきの少ない驚くほど連続性のある動画を生成できることが実証されています。
制御可能なビデオ生成は近年、大きな注目を集めています。しかし、2つの主要な課題が依然として存在します。第一に、既存の研究の多くはテキスト、画像、または軌道ベースの制御のいずれかに焦点を当てており、ビデオにおける細かな制御を実現できていません。第二に、軌道制御の研究はまだ初期段階にあり、ほとんどの実験はHuman3.6Mのような単純なデータセットで行われています。この制約により、モデルがオープンドメインの画像を処理し、複雑な曲線軌道を効果的に扱う能力が制限されています。本論文では、オープンドメインの拡散モデルに基づくビデオ生成モデルであるDragNUWAを提案します。既存研究における制御の粒度不足の問題に対処するため、テキスト、画像、軌道情報を同時に導入し、意味的、空間的、時間的な観点からビデオコンテンツを細かく制御します。現在の研究におけるオープンドメイン軌道制御の限界を解決するため、軌道モデリングを3つの側面から提案します。任意の軌道をオープンドメインで制御可能にするTrajectory Sampler (TS)、異なる粒度で軌道を制御するMultiscale Fusion (MF)、軌道に沿った一貫性のあるビデオを生成するAdaptive Training (AT)戦略です。実験により、DragNUWAの有効性が検証され、ビデオ生成における細かな制御において優れた性能を発揮することが示されました。ホームページのリンクはhttps://www.microsoft.com/en-us/research/project/dragnuwa/です。
自己教師あり学習と言語教師あり学習の画像モデルは、汎化に重要な世界に関する豊富な知識を含んでいます。しかし、多くのロボットタスクでは、3Dジオメトリの詳細な理解が必要であり、これは2D画像特徴ではしばしば欠如しています。本研究は、2D基盤モデルから得られる豊富なセマンティクスと正確な3Dジオメトリを組み合わせるために蒸留特徴フィールドを活用し、ロボット操作における2Dから3Dへのギャップを埋めます。我々は、これらの強力な空間的・意味的事前情報を活用して、未見の物体に対する実世界での汎化を実現する6自由度把持と配置のための少数ショット学習手法を提案します。視覚言語モデルCLIPから蒸留した特徴を用いて、自由形式の自然言語を通じて新しい物体を操作対象として指定する方法を提示し、未見の表現や新規カテゴリの物体に対する汎化能力を実証します。
一般的な非剛体変形物体の4D再構築に関する既存の手法は、新規視点合成に焦点を当て、対応関係を軽視してきました。しかし、時間的一貫性は、3D編集、モーション分析、仮想アセット作成などの高度な下流タスクを可能にします。本研究では、時間的一貫性を持った一般的な非剛体シーンの再構築を実現するSceNeRFlowを提案します。私たちの動的NeRF手法は、既知のカメラパラメータを持つ固定カメラからのマルチビューRGB動画と背景画像を入力として受け取り、オンライン方式で幾何学と外観の推定正準モデルの変形を再構築します。この正準モデルは時間不変であるため、長期間にわたる長距離の動きに対しても対応関係を得ることができます。私たちは、手法の構成要素をパラメータ化するためにニューラルシーン表現を採用しています。従来の動的NeRF手法と同様に、後方変形モデルを使用しますが、より大きな動きを扱うためにはこのモデルの非自明な適応が必要であることがわかりました。具体的には、変形を強く正則化された粗い成分と弱く正則化された細かい成分に分解し、粗い成分は物体周囲の空間まで変形場を拡張することで、時間経過に伴う追跡を可能にします。実験的に、小さな動きしか扱えない従来の手法とは異なり、私たちの手法がスタジオ規模の動きの再構築を可能にすることを示します。