翻訳付きの日次キュレーションされたAI研究論文
単一画像からの衣服を着た人体の再構成に関する最近の研究進展にもかかわらず、高精細なディテールで「未観測領域」を正確に復元することは、十分な注目が払われていない未解決の課題である。既存手法では、ぼやけたテクスチャを持つ過度に滑らかな背面表面が生成されることが多い。しかし、単一画像から個人の全ての視覚的属性を効果的に捕捉し、未観測領域(背面ビューなど)の再構成に十分な情報を得るにはどうすればよいか?基盤モデルの能力に着想を得て、TeCHは以下の2つを活用して3D人体を再構成する:1)衣服解析モデルとVQA(Visual Question Answering)を介して自動生成される記述的テキストプロンプト(衣服、色、髪型など)、2)「言葉で表現し難い」外観を学習する個人化ファインチューニング済みText-to-Image拡散モデル。高解像度の3D衣服人体を低コストで表現するため、明示的な身体形状グリッドと暗黙的距離場で構成されるDMTetベースのハイブリッド3D表現を提案する。記述的プロンプトと個人化T2I拡散モデルの誘導により、3D人体の幾何形状とテクスチャは、元の観測に基づくマルチビューScore Distillation Sampling(SDS)と再構成損失を通じて最適化される。TeCHは、一貫性と繊細なテクスチャ、詳細な全身幾何形状を備えた高精細な3D衣服人体を生成する。定量的・定性的実験により、TeCHが再構成精度とレンダリング品質において既存の最先端手法を凌駕することを実証する。コードは研究目的でhttps://huangyangyi.github.io/tech に公開予定である。
個人化テキスト生成は、近年注目を集めている新興の研究分野である。この方向性の研究の多くは、特定のドメインに特化した特徴量やモデルを設計することに焦点を当てている。本論文では、大規模言語モデル(LLM)を用いた個人化テキスト生成のための汎用的なアプローチを提案する。文章教育の実践に着想を得て、個人化生成のためのLLMを指導する多段階・マルチタスクフレームワークを開発した。文章指導において、情報源からの執筆タスクは、情報の発見、評価、要約、統合、組み込みを含む複数の段階に分解されることが多い。同様に、我々の個人化テキスト生成へのアプローチも、検索、ランキング、要約、統合、生成の複数の段階で構成される。さらに、教育分野における「読解力と文章力には相関関係がある」という観察に基づき、モデルの生成能力をさらに向上させるマルチタスク設定を導入する。提案手法を3つの公開データセットで評価し、それぞれが異なる代表的なドメインをカバーしている。実験結果は、様々なベースライン手法を大幅に上回る改善を示している。
近年、拡散モデルの台頭に伴い、テキストから動画を生成する技術が注目を集めています。しかし、その重要な課題として、生成された動画にちらつきやアーティファクトが生じやすいことが挙げられます。本研究では、動画生成における内容の一貫性を向上させるため、デュアルストリーム拡散ネット(DSDN)を提案します。具体的には、設計した2つの拡散ストリーム、すなわち動画コンテンツブランチとモーションブランチは、それぞれの独立した空間で動作し、個別の動画バリエーションやコンテンツを生成するだけでなく、私たちが設計したクロストランスフォーマーインタラクションモジュールを活用して、コンテンツとモーションの領域間で適切に整合させることで、生成される動画の滑らかさを向上させます。さらに、動画のモーション操作を容易にするため、モーション分解器と結合器も導入しました。定性的および定量的な実験により、本手法がちらつきの少ない驚くほど連続性のある動画を生成できることが実証されています。
制御可能なビデオ生成は近年大きな注目を集めている。しかし、以下の2つの主要な課題が依然として存在する。第一に、既存研究の多くはテキスト、画像、または軌道ベースの制御のいずれかに焦点を当てているため、ビデオにおける微細な制御を実現できない。第二に、軌道制御の研究はまだ初期段階にあり、ほとんどの実験がHuman3.6Mのような単純なデータセットで実施されている。この制約により、モデルがオープンドメイン画像を処理し、複雑な曲線軌道を効果的に扱う能力が制限されている。本論文では、オープンドメインの拡散ベースビデオ生成モデルであるDragNUWAを提案する。既存研究の制御粒度不足の問題に対処するため、テキスト、画像、軌道情報を同時に導入し、意味的、空間的、時間的観点からビデオコンテンツに対する微細な制御を実現する。現在の研究におけるオープンドメイン軌道制御の限界を解決するため、3つの側面からなる軌道モデリングを提案する。任意の軌道のオープンドメイン制御を可能にするTrajectory Sampler (TS)、異なる粒度で軌道を制御するMultiscale Fusion (MF)、軌道に沿った一貫性のあるビデオ生成を実現するAdaptive Training (AT)戦略である。実験によりDragNUWAの有効性を検証し、ビデオ生成における微細な制御の優れた性能を実証する。ホームページリンクはhttps://www.microsoft.com/en-us/research/project/dragnuwa/である。
自己教師あり学習および言語教師あり学習の画像モデルは、一般化に重要な世界に関する豊富な知識を含んでいます。しかしながら、多くのロボットタスクでは3次元形状の詳細な理解が必要とされますが、これは2次元画像特徴では往々にして不足しています。本研究は、蒸留された特徴フィールドを活用して、正確な3次元形状と2次元基盤モデルから得られる豊富な意味情報を統合することで、ロボットマニピュレーションにおける2次元-3次元間の隔たりを埋めます。我々は、これらの強力な空間的・意味的事前情報を活用して、未見の物体に対する実環境での一般化を実現する、6自由度把持・配置のための少数ショット学習手法を提案します。視覚言語モデルCLIPから蒸留した特徴を利用し、自由記述の自然言語を通じて操作対象の新規物体を指定する方法を示し、未見の表現や新規カテゴリの物体への一般化能力を実証します。
一般の非剛体変形オブジェクトに対する4D再構成の既存手法は、新規視点合成に焦点を当て、対応関係を軽視してきた。しかし、時間的一貫性は3D編集、運動分析、仮想アセット作成などの高度な下流タスクを可能にする。本研究では、時間的一貫性のある方法で一般的な非剛体シーンを再構成するSceNeRFlowを提案する。私たちの動的NeRF手法は、既知のカメラパラメータを持つ静止カメラからのマルチビューRGBビデオと背景画像を入力として受け取る。その後、幾何学と外観の推定正準モデルの変形をオンライン方式で再構成する。この正準モデルは時間不変であるため、長期的かつ大規模な運動に対しても対応関係を得ることができる。 私たちは手法の構成要素をパラメータ化するために神経シーン表現を採用する。従来の動的NeRF手法と同様に、後方変形モデルを使用する。より大きな動きを扱うためには、このモデルの非自明な適応が必要であることを見出した:変形を強正則化された粗い成分と弱正則化された細かい成分に分解し、粗い成分は物体周囲の空間まで変形場を拡張する。これにより時間的な追跡が可能となる。小規模な動きのみを扱う従来研究とは異なり、私たちの手法がスタジオ規模の運動の再構成を可能にすることを実験的に示す。