翻訳付きの日次キュレーションされたAI研究論文
単一画像からの衣服を着た人間の再構築に関する最近の研究進展にもかかわらず、「未観測領域」を高精細な詳細で正確に復元することは、十分な注目が払われていない未解決の課題である。既存手法では、ぼやけたテクスチャを持つ過度に滑らかな背面表面が生成されることが多い。しかし、単一画像から個人の全ての視覚的属性を効果的に捉え、それらを未観測領域(例:背面)の再構築に十分な形で活用するにはどうすればよいか?基盤モデルの能力に着想を得て、TeCHは以下の2つを活用して3D人間を再構築する:1)衣服解析モデルと視覚的質問応答(VQA)を介して自動生成される記述的テキストプロンプト(例:衣服、色、髪型)、2)「言葉にできない」外観を学習する個人調整済みテキストto画像拡散モデル(T2I)。高解像度の3D衣服着用人間を低コストで表現するため、明示的な身体形状グリッドと暗黙的距離場で構成されるDMTetに基づくハイブリッド3D表現を提案する。記述的プロンプトと個人調整済みT2I拡散モデルの指導の下、3D人間の形状とテクスチャは、元の観測に基づくマルチビューScore Distillation Sampling(SDS)と再構築損失を通じて最適化される。TeCHは、一貫性と繊細なテクスチャ、詳細な全身形状を備えた高精細な3D衣服着用人間を生成する。定量的・定性的実験により、TeCHが再構築精度とレンダリング品質において最新手法を凌駕することを実証する。コードは研究目的でhttps://huangyangyi.github.io/tech に公開予定である。
自己教師あり学習および言語教師あり学習の画像モデルは、汎化に重要な世界に関する豊富な知識を含んでいます。しかしながら、多くのロボットタスクには3Dジオメトリの詳細な理解が求められ、これは2D画像特徴では往々にして不足しています。本研究は、蒸留された特徴フィールドを活用して、正確な3Dジオメトリと2D基盤モデルからの豊富な意味情報を統合することで、ロボットマニピュレーションにおける2D-3D間の隔たりを埋めます。我々は、これらの強力な空間的・意味的事前情報を活用して未見の物体への実世界汎化を達成する6自由度把持・配置の少数ショット学習手法を提案します。視覚言語モデルCLIPから蒸留した特徴を利用し、自由記述の自然言語を通じて操作対象の新規物体を指定する手法を提示し、未見の表現や新規カテゴリの物体への汎化能力を実証します。
一般の非剛体変形オブジェクトに対する4D再構成の既存手法は、新規視点合成に焦点を当て、対応関係を軽視してきた。しかし、時間的一貫性は3D編集、運動分析、仮想アセット作成などの高度な下流タスクを可能にする。本研究では、時間的一貫性のある方法で一般的な非剛体シーンを再構成するSceNeRFlowを提案する。私たちの動的NeRF手法は、既知のカメラパラメータを持つ静止カメラからのマルチビューRGBビデオと背景画像を入力として受け取る。その後、幾何学と外観の推定正準モデルの変形をオンライン方式で再構成する。この正準モデルは時間不変であるため、長期的かつ大規模な運動に対しても対応関係を得ることができる。 私たちは手法の構成要素をパラメータ化するために神経シーン表現を採用する。従来の動的NeRF手法と同様に、後方変形モデルを使用する。より大きな動きを扱うためには、このモデルの非自明な適応が必要であることを見出した:変形を強正則化された粗い成分と弱正則化された細かい成分に分解し、粗い成分は物体周囲の空間まで変形場を拡張する。これにより時間的な追跡が可能となる。小規模な動きのみを扱う従来研究とは異なり、私たちの手法がスタジオ規模の運動の再構成を可能にすることを実験的に示す。