翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)の開発が進むにつれ、それらを人間の好みに合わせることがますます重要になっています。本論文では、最近注目を集めている直接選好最適化(DPO)を拡張した段階的DPO(sDPO)を提案します。このアプローチでは、利用可能な選好データセットを分割し、一度にすべてを使用するのではなく、段階的に活用します。この方法により、DPOトレーニングフレームワーク内でより正確に調整された参照モデルを使用することが容易になることを示します。さらに、sDPOは最終モデルをより高性能に訓練し、より多くのパラメータを持つ他の人気LLMを上回る性能を発揮します。
3Dガウシアンスプラッティング(GS)は、3Dフィッティングの忠実度とレンダリング速度において、ニューラルラジアンスフィールドを大きく上回る進歩を遂げています。しかし、散在するガウシアンからなるこの非構造化表現は、生成モデリングにおいて重大な課題を提起します。この問題に対処するため、我々はGaussianCubeを導入します。これは、生成モデリングにおいて強力かつ効率的な構造化GS表現です。これを実現するために、まず固定数の自由ガウシアンを用いて高品質なフィッティング結果を得られる、修正版の高密度化制約付きGSフィッティングアルゴリズムを提案し、次に最適輸送を介してガウシアンを事前定義されたボクセルグリッドに再配置します。この構造化グリッド表現により、複雑な設計を必要とせずに標準的な3D U-Netを拡散生成モデリングのバックボーンとして使用することが可能になります。ShapeNetとOmniObject3Dで実施した広範な実験により、我々のモデルが質的・量的に最先端の生成結果を達成することが示され、GaussianCubeが強力で汎用性の高い3D表現としての可能性を強調しています。
マルチモーダル大規模言語モデル(LLM)において、大きな進展が見られています。最近の研究では、これらのモデルをビデオ入力に拡張し、有望な指示追従能力を示しています。しかし、重要な欠落要素は時間的ローカライゼーションです。これらのモデルは「いつ?」という質問に正確に答えることができません。私たちは、時間的ローカライゼーション能力を制限する3つの主要な側面を特定しました:(i)時間表現、(ii)アーキテクチャ、(iii)データ。これらの欠点を解決するために、以下の特徴を持つLanguage Instructed Temporal-Localization Assistant(LITA)を提案します:(1)ビデオの長さに対するタイムスタンプをエンコードする時間トークンを導入し、ビデオ内の時間をより適切に表現します。(2)アーキテクチャにSlowFastトークンを導入し、細かい時間解像度で時間情報を捕捉します。(3)LITAのための時間的ローカライゼーションデータを重視します。既存のタイムスタンプ付きビデオデータセットを活用するだけでなく、新しいタスクであるReasoning Temporal Localization(RTL)とそのデータセットActivityNet-RTLを提案し、このタスクの学習と評価を行います。推論的時間的ローカライゼーションは、ビデオLLMの推論と時間的ローカライゼーションの両方を必要とします。LITAは、この挑戦的なタスクにおいて強力な性能を示し、ベースラインの時間的平均IoU(mIoU)をほぼ2倍にしました。さらに、時間的ローカライゼーションを重視することで、既存のビデオLLMと比較してビデオベースのテキスト生成も大幅に改善され、時間的理解において36%の相対的改善が見られました。コードは以下で利用可能です:https://github.com/NVlabs/LITA
拡散モデルに基づくテキストから画像への生成モデル、例えばStable Diffusionは、コンテンツ生成の分野に革命をもたらし、画像編集や映像合成などの領域で大きな進展を可能にしました。しかし、これらのモデルには限界も存在します。入力テキストとよく一致する画像を合成することは依然として難しく、満足のいく結果を得るためには入念に設計されたプロンプトを用いた複数回の実行が必要です。これらの制約を緩和するため、多くの研究が事前学習済みの拡散モデル(UNetなど)を様々な技術を用いてファインチューニングする試みを行ってきました。しかし、これらの取り組みの中で、テキストから画像への拡散モデルの訓練における重要な疑問がほとんど未解明のまま残されていました:テキストエンコーダをファインチューニングすることで、テキストから画像への拡散モデルの性能を向上させることは可能で、かつ実現可能なのか?私たちの研究結果は、Stable Diffusionで使用されているCLIPテキストエンコーダを他の大規模言語モデルに置き換えるのではなく、私たちが提案するファインチューニング手法TextCraftorを通じて強化することで、定量的なベンチマークと人間による評価の両方で大幅な改善が可能であることを明らかにしました。興味深いことに、私たちの技術は、異なる報酬でファインチューニングされた複数のテキストエンコーダを補間することで、制御可能な画像生成も可能にします。また、TextCraftorはUNetのファインチューニングと直交しており、組み合わせることで生成品質をさらに向上させることができることも実証しました。
本研究では、3D生成タスクのためのテクスチャ付きメッシュからグラウンドトゥルースの放射場を導出する手法であるMesh2NeRFを提案します。多くの3D生成手法では、3Dシーンを放射場として表現して学習を行います。これらのグラウンドトゥルース放射場は、通常、大規模な合成3Dデータセットからの多視点レンダリングからフィッティングされますが、オクルージョンやフィッティング不足によるアーティファクトが生じることがよくあります。Mesh2NeRFでは、3Dメッシュから直接グラウンドトゥルース放射場を取得する解析的解法を提案します。具体的には、定義された表面厚さを持つ占有関数を用いて密度場を特徴付け、メッシュと環境照明の両方を考慮した反射関数によって視点依存の色を決定します。Mesh2NeRFは、生成型NeRFや単一シーン表現の学習に直接的な教師信号を提供する正確な放射場を抽出します。本手法の有効性を様々なタスクで検証し、ABOデータセットにおける単一シーン表現のビュー合成ではPSNRが3.12dB向上し、ShapeNet Carsの単一視点条件付き生成では0.69 PSNRの向上、Objaverse Mugsの無条件生成ではNeRFからのメッシュ抽出が顕著に改善されることを確認しました。