翻訳付きの日次キュレーションされたAI研究論文
深層学習のエキサイティングなアプリケーションの大部分を支える基盤モデルは、ほぼ普遍的にTransformerアーキテクチャとその中核をなすアテンションモジュールに基づいています。長いシーケンスにおけるTransformerの計算効率の低さに対処するため、線形アテンション、ゲート付き畳み込み、リカレントモデル、構造化状態空間モデル(SSM)など、サブ二次時間のアーキテクチャが数多く開発されてきました。しかし、これらのモデルは言語などの重要なモダリティにおいて、アテンションほどの性能を発揮できていません。我々は、これらのモデルの主要な弱点が、コンテンツベースの推論を実行できない点にあると特定し、いくつかの改善を加えました。まず、SSMのパラメータを入力の関数とすることで、離散モダリティにおける弱点を解消し、モデルが現在のトークンに応じてシーケンス長の次元に沿って情報を選択的に伝播または忘却できるようにしました。次に、この変更により効率的な畳み込みの使用が妨げられるものの、ハードウェアを意識した並列アルゴリズムをリカレントモードで設計しました。これらの選択的SSMを、アテンションやMLPブロックさえも持たない簡素化されたエンドツーエンドのニューラルネットワークアーキテクチャ(Mamba)に統合しました。Mambaは、高速な推論(Transformerの5倍のスループット)とシーケンス長に対する線形スケーリングを実現し、実際のデータにおいて最大百万長のシーケンスまで性能が向上します。一般的なシーケンスモデルのバックボーンとして、Mambaは言語、音声、ゲノミクスなど複数のモダリティにおいて最先端の性能を達成します。言語モデリングにおいて、我々のMamba-3Bモデルは、同じサイズのTransformerを上回り、その2倍のサイズのTransformerと同等の性能を、事前学習と下流評価の両方で示しました。
我々は、テキスト駆動型3D人間モーション生成のための新しいマスクモデリングフレームワークであるMoMaskを紹介する。MoMaskでは、階層的な量子化スキームを採用し、高忠実度の詳細を持つ多層の離散モーショントークンとして人間の動きを表現する。ベースレイヤーから始まり、ベクトル量子化によって得られたモーショントークンのシーケンスに基づいて、増加する次数の残差トークンが導出され、階層の後続のレイヤーに保存される。これに続いて、2つの異なる双方向トランスフォーマーが使用される。ベースレイヤーのモーショントークンに対しては、Masked Transformerが指定され、トレーニング段階でテキスト入力を条件としてランダムにマスクされたモーショントークンを予測する。生成(すなわち推論)段階では、空のシーケンスから始めて、我々のMasked Transformerが欠落したトークンを反復的に埋めていく。その後、Residual Transformerが現在のレイヤーの結果に基づいて次のレイヤーのトークンを段階的に予測することを学習する。広範な実験により、MoMaskがテキストからモーション生成タスクにおいて最先端の手法を上回ることが示されており、HumanML3DデータセットではFIDが0.045(例えばT2M-GPTの0.141に対して)、KIT-MLでは0.228(0.514に対して)を達成している。MoMaskは、テキストガイドによる時間的インペインティングなどの関連タスクにも、追加のモデルファインチューニングなしでシームレスに適用することができる。
我々はDREAMを提案する。これは、拡散モデルにおける学習とサンプリングの整合性を大幅に向上させる、最小限のコード変更(わずか3行)で実現可能な新しい学習フレームワークである。DREAMは、拡散補正(Diffusion Rectification)と推定適応(Estimation Adaptation)の2つのコンポーネントを特徴とする。拡散補正は、サンプリングプロセスを反映するように学習を調整し、推定適応は知覚と歪みのバランスを取る。画像超解像(SR)に適用した場合、DREAMは歪みの最小化と高品質な画像保存のトレードオフを巧みに調整する。実験結果は、DREAMが標準的な拡散ベースのSR手法を凌駕し、学習収束が2~3倍速く、同等または優れた結果を得るために必要なサンプリングステップを10~20分の1に削減できることを示している。我々は、DREAMが拡散モデルの学習パラダイムの再考を促すことを期待している。
マルチモーダル大規模言語モデル(MLLMs)は最近、マルチモーダル理解、推論、およびインタラクションにおいて印象的な能力を示しています。しかし、既存のMLLMsは、関連する画像に事実に基づかないテキストを生成する深刻な幻覚問題に広く悩まされています。この問題により、既存のMLLMsは信頼性が低く、特に重要な場面での実世界の応用には不向きです。この課題に対処するため、我々はRLHF-Vを提案します。RLHF-Vは、細かい修正を伴う人間のフィードバックから行動の整合性を高めることで、MLLMsの信頼性を向上させます。具体的には、RLHF-Vは幻覚に対するセグメントレベルの修正という形で人間の選好を収集し、そのフィードバックに対して密な直接選好最適化を行います。自動評価と人間評価の両方における5つのベンチマークでの包括的な実験により、RLHF-Vがデータと計算効率の面で有望な信頼性の高いMLLMの行動を実現できることが示されています。注目すべきは、1.4kの注釈付きデータサンプルを使用して、RLHF-VがベースMLLMの幻覚率を34.8%大幅に減少させ、10kの注釈付きデータでトレーニングされた同時期のLLaVA-RLHFを上回ることです。最終モデルは、オープンソースのMLLMsの中で信頼性において最先端の性能を達成し、過剰一般化から引き起こされる幻覚を防ぐ点でGPT-4Vよりも優れた堅牢性を示します。我々はコード、モデル、データをhttps://github.com/RLHF-V/RLHF-Vで公開しています。
限られた観測からの新規視点合成は、依然として重要かつ持続的な課題である。しかし、既存のNeRFベースの少数視点合成における高い効率性は、正確な3D表現を得るためにしばしば犠牲にされている。この課題に対処するため、我々は3D Gaussian Splattingに基づく少数視点合成フレームワークを提案し、わずか3つの訓練視点でリアルタイムかつフォトリアルな視点合成を可能にする。FSGSと名付けられた提案手法は、慎重に設計されたGaussian Unpoolingプロセスにより、極めて疎な初期化SfMポイントを処理する。本手法は、最も代表的な位置周辺に新しいガウシアンを反復的に分布させ、その後、空いた領域に局所的な詳細を埋め込む。また、大規模な事前学習済み単眼深度推定器をガウシアン最適化プロセスに統合し、オンラインで拡張された視点を活用して幾何学的な最適化を最適解へと導く。限られた入力視点から観測された疎なポイントから始めて、我々のFSGSは未観測領域へ正確に拡張し、シーンを包括的にカバーして新規視点のレンダリング品質を向上させる。全体として、FSGSはLLFF、Mip-NeRF360、Blenderなどの多様なデータセットにおいて、精度とレンダリング効率の両方で最先端の性能を達成する。プロジェクトウェブサイト: https://zehaozhu.github.io/FSGS/。
ニューラルレンダリング手法は、様々な学術的・産業的アプリケーションにおいて、フォトリアルな3Dシーンレンダリングを大幅に進化させてきました。最近の3Dガウシアンスプラッティング手法は、プリミティブベース表現とボリューム表現の両方の利点を組み合わせ、最先端のレンダリング品質と速度を実現しています。しかし、この手法はすべてのトレーニングビューに適合しようとする過剰なガウシアンを生み出し、シーンの基盤となるジオメトリを無視する傾向があります。その結果、生成されたモデルは視点の大幅な変化、テクスチャのない領域、および照明効果に対してロバスト性を失います。本論文では、Scaffold-GSを紹介します。この手法はアンカーポイントを使用して局所的な3Dガウシアンを配置し、ビューフラスタム内の視点方向と距離に基づいてその属性をオンザフライで予測します。アンカーの成長と剪定戦略は、ニューラルガウシアンの重要性に基づいて開発され、シーンカバレッジを確実に向上させます。本手法が冗長なガウシアンを効果的に削減しつつ、高品質なレンダリングを実現することを示します。また、レンダリング速度を犠牲にすることなく、詳細レベルが異なるシーンや視点依存の観察に対応する能力が強化されていることも実証します。
テキストガイドによる3D顔合成は、テキストから画像(T2I)への拡散モデルを活用することで顕著な成果を上げています。しかし、既存の研究の多くは直接生成にのみ焦点を当てており、編集を無視しているため、反復的な調整を通じてカスタマイズされた3D顔を合成することが制限されています。本論文では、顔の生成から編集までを統合したテキストガイドフレームワークを提案します。生成段階では、結合による幾何学的詳細の損失を軽減するために、幾何学とテクスチャを分離した生成を提案します。さらに、分離により生成された幾何学をテクスチャ生成の条件として利用することで、幾何学とテクスチャが高度に整合した結果を得ることができます。また、RGB空間とYUV空間の両方でテクスチャ品質を向上させるために、微調整されたテクスチャ拡散モデルを採用します。編集段階では、まず事前学習済みの拡散モデルを使用して、テキストに基づいて顔の幾何学またはテクスチャを更新します。逐次編集を可能にするために、UVドメインの一貫性保持正則化を導入し、無関係な顔属性への意図しない変更を防ぎます。さらに、一貫性を保ちながら編集効果を向上させるために、自己ガイド型一貫性重み戦略を提案します。包括的な実験を通じて、本手法の顔合成における優位性を実証します。プロジェクトページ: https://faceg2e.github.io/。
ニューラルラジアンスフィールド(NeRF)は、空間グリッド表現を用いることで大幅に高速化できます。しかし、NeRFはスケールを明示的に考慮しないため、異なるカメラ距離で撮影されたシーンを再構築する際にエイリアシングアーティファクトが生じます。Mip-NeRFとその拡張版は、点サンプルではなく体積フラスタムを投影するスケールを考慮したレンダラーを提案していますが、このようなアプローチはグリッド手法と容易に互換性のない位置エンコーディングに依存しています。本研究では、異なる空間グリッド解像度でモデルヘッドを訓練するという、グリッドベースモデルに対するシンプルな修正を提案します。レンダリング時には、より粗いグリッドを使用して大きな体積をカバーするサンプルをレンダリングします。この手法は既存の高速化されたNeRF手法に容易に適用可能であり、パフォーマンスのオーバーヘッドを最小限に抑えつつ(各モデルヘッドの評価が迅速であるため)、レンダリング品質を大幅に向上させます(合成シーンおよび無制限の実世界シーン全体でエラーレートを20~90%削減)。Mip-NeRFと比較して、エラーレートを20%削減しつつ、60倍以上高速に訓練できます。
近年、事前学習済みの2D拡散モデルの発展に後押しされ、自動的なテキストから3Dコンテンツ生成が著しい進歩を遂げています。既存のテキストから3D生成手法では、一般的に3D表現を最適化し、レンダリングされた画像が与えられたテキストとよく一致するようにします。これは事前学習済みの2D拡散モデルによって評価されます。しかし、2D画像と3Dアセットの間には大きなドメインギャップが存在し、主にカメラ関連の属性の変動や前景オブジェクトのみが存在することに起因しています。そのため、2D拡散モデルを直接3D表現の最適化に用いると、最適でない結果を招く可能性があります。この問題を解決するため、我々はX-Dreamerを提案します。これはテキストから2D生成とテキストから3D生成のギャップを効果的に埋める、高品質なテキストから3Dコンテンツ生成の新しいアプローチです。X-Dreamerの主要な構成要素は、2つの革新的な設計です:カメラ誘導型低ランク適応(CG-LoRA)とアテンションマスクアライメント(AMA)損失です。CG-LoRAは、学習可能なパラメータに対してカメラ依存の生成を採用することで、事前学習済みの拡散モデルにカメラ情報を動的に組み込みます。これにより、生成された3Dアセットとカメラの視点との整合性が向上します。AMA損失は、3Dオブジェクトのバイナリマスクを使用して事前学習済みの拡散モデルのアテンションマップを誘導し、前景オブジェクトの生成を優先します。このモジュールにより、モデルが正確で詳細な前景オブジェクトの生成に集中することが保証されます。広範な評価により、提案手法が既存のテキストから3D生成手法と比較して有効性を発揮することが実証されています。プロジェクトのウェブページはこちらです:https://xmuxiaoma666.github.io/Projects/X-Dreamer