翻訳付きの日次キュレーションされたAI研究論文
単一の入力画像からわずか5秒で物体の3Dモデルを予測する初のLarge Reconstruction Model(LRM)を提案します。ShapeNetなどの小規模データセットでカテゴリ固有の方法で学習されてきた従来の多くの手法とは対照的に、LRMは5億の学習可能なパラメータを持つ高度にスケーラブルなトランスフォーマーベースのアーキテクチャを採用し、入力画像から直接ニューラルラジアンスフィールド(NeRF)を予測します。本モデルは、Objaverseからの合成レンダリングとMVImgNetからの実写キャプチャを含む約100万のオブジェクトからなる大規模なマルチビューデータでエンドツーエンドで学習されます。この高容量モデルと大規模トレーニングデータの組み合わせにより、本モデルは高い汎化性能を発揮し、実世界のワイルドキャプチャや生成モデルからの画像を含む様々なテスト入力から高品質な3D再構成を生成します。ビデオデモやインタラクティブな3Dメッシュは以下のウェブサイトでご覧いただけます:https://yiconghong.me/LRM/。
マルチモーダル大規模言語モデル(MM-LLMs)は最近目覚ましい進歩を遂げているものの、依然としてマルチモーダル入力間の相互作用や非テキストモダリティにおける生成を効率的にモデル化するのに苦戦しています。本研究では、TEAL(Tokenize and Embed ALl)というアプローチを提案します。これは、あらゆるモダリティからの入力をトークンシーケンスとして扱い、すべてのモダリティのための結合埋め込み空間を学習するものです。具体的には、TEALはまず、任意のモダリティからの入力を既存のトークナイザーを使用してトークンシーケンスに離散化し、学習可能な埋め込み行列を用いて結合埋め込み空間に埋め込みます。MM-LLMsは、テキストLLMsが行うように、マルチモーダルトークンを自己回帰的に予測するだけで済みます。最後に、予測されたトークンシーケンスに基づいて、各モダリティにおける出力を生成するために対応するデトークナイザーが適用されます。結合埋め込み空間を利用することで、TEALは凍結されたLLMsが画像や音声などの非テキストモダリティを含む理解と生成タスクを実行できるようにします。これにより、テキストLLMはインターフェースとして機能し、テキスト理解と生成における高い性能を維持することができます。実験結果は、TEALがマルチモーダル理解において大幅な改善を達成し、マルチモーダル生成のためのシンプルなスキームを実装していることを示しています。
大規模言語モデル(LLM)の発展は、マルチモーダル理解の分野を大きく前進させ、大規模マルチモーダルモデル(LMM)の出現をもたらしました。視覚理解のレベルを向上させるため、最近の研究では、物体のバウンディングボックスの座標をテキストシーケンス(pixel2seq)として表現することで、LMMに領域レベルの理解能力を付与しています。本論文では、物体位置モデリングの新しいパラダイムであるpixel2embメソッドを提案します。この方法では、LMMに位置埋め込みを出力させ、それを異なるデコーダでデコードします。このパラダイムにより、マルチモーダル会話においてバウンディングボックスやマスクなどの異なる位置形式を使用することが可能になります。さらに、このような埋め込みベースの位置モデリングにより、検出やセグメンテーションなどのローカライゼーションタスクにおける既存の手法を活用することができます。リソースが限られたシナリオにおいて、我々のpixel2embは、公平な比較の下で、位置入力および出力タスクにおいて既存の最先端(SOTA)アプローチよりも優れた性能を示します。提案されたpixel2embメソッドを活用し、NExT-ChatというLMMをトレーニングし、視覚的グラウンディング、領域キャプション、グラウンディング推論などの複数のタスクを処理する能力を実証します。
最近のテキストから画像への生成モデルの驚異的な質的向上により、これらのモデルは広く注目され、採用されるようになりました。しかし、その能力とリスクについて包括的な定量的理解が不足しています。このギャップを埋めるため、我々は新しいベンチマーク「Holistic Evaluation of Text-to-Image Models(HEIM)」を導入します。従来の評価は主にテキストと画像の整合性と画像品質に焦点を当てていましたが、我々は12の側面を特定しました。これには、テキストと画像の整合性、画像品質、美的感覚、独創性、推論能力、知識、バイアス、毒性、公平性、堅牢性、多言語対応、効率性が含まれます。これらの側面を網羅する62のシナリオを策定し、26の最先端テキストから画像への生成モデルをこのベンチマークで評価しました。その結果、すべての側面で優れた単一のモデルは存在せず、異なるモデルが異なる強みを示すことが明らかになりました。生成された画像と人間による評価結果を完全な透明性のためにhttps://crfm.stanford.edu/heim/v1.1.0で公開し、HELMコードベースと統合されたコードをhttps://github.com/stanford-crfm/helmで公開しています。
本論文では、3D-aware拡散モデルから得られる特徴量を活用し、単一画像からの3D物体検出を行う最先端手法「3DiffTection」を提案する。大規模な画像データに3D検出用のアノテーションを付与する作業は、リソースと時間を要する課題である。近年、事前学習済みの大規模画像拡散モデルが、2D知覚タスクにおける効果的な特徴抽出器として注目を集めている。しかし、これらの特徴量はテキストと画像のペアデータで初期学習されており、3Dタスクに最適化されていないため、ターゲットデータに適用する際にドメインギャップが生じることが多い。我々のアプローチでは、幾何学的チューニングと意味的チューニングという2つの専門的な調整戦略を通じて、これらのギャップを埋める。幾何学的チューニングでは、新たなエピポーラワープ演算子を導入し、単一画像を条件とした新規視点合成を行うために拡散モデルをファインチューニングする。このタスクは、3D認識の必要性と、手動アノテーションを必要とせずに容易に入手可能な(例えば動画からの)ポーズ付き画像データのみに依存するという2つの重要な基準を満たしている。意味的リファインメントでは、検出の教師信号を用いてターゲットデータ上でモデルをさらに学習させる。両チューニングフェーズでは、ControlNetを使用して元の特徴量能力の完全性を維持する。最終段階では、これらの強化された能力を活用し、複数の仮想視点にわたるテスト時予測アンサンブルを実施する。我々の手法により、3D検出に特化した3D-aware特徴量を獲得し、クロスビューの点対応関係の識別に優れた性能を発揮する。その結果、我々のモデルは強力な3D検出器として登場し、Omni3D-ARkitsceneデータセットにおいて、単一視点3D検出の先駆けであるCube-RCNNをAP3Dで9.43%上回るなど、従来のベンチマークを大幅に凌駕する。さらに、3DiffTectionは、データ効率の高さとクロスドメインデータへの汎化能力の強さを実証している。
近年の研究では、大規模言語モデル(LLMs)が、従来のニューロシンボリックモデルをプログラミング能力によって強化し、言語をモジュール記述に変換することで、モデルの透明性と効率性を維持しながら強力な視覚的推論結果を達成できることが示されています。しかし、これらのモデルは通常、各タスクの新しいインスタンスに対してコードスニペット全体を網羅的に生成するため、非常に非効率的です。本研究では、モジュールの成長と再利用による生成的ニューロシンボリック視覚推論を提案します。具体的には、我々のモデルは、モジュール初期化、モジュール生成、モジュール実行という3つの独自の段階で構成されています。まず、視覚言語タスクが与えられた場合、LLMsを採用して、既存のモジュールを再利用および成長させてこの新しいタスクを処理できるかどうかを検討します。できない場合、タスクに必要な新しいモジュールを初期化し、この新しいモジュールの入力と出力を指定します。その後、LLMsにクエリを送信して、要件に合致する対応するコードスニペットを生成することで、新しいモジュールを作成します。新しいモジュールの能力をよりよく理解するために、少数のトレーニング例をテストケースとして扱い、新しいモジュールがこれらのケースを通過できるかどうかを確認します。通過できれば、新しいモジュールは将来の再利用のためにモジュールライブラリに追加されます。最後に、新しく作成された視覚モジュールを使用して解析されたプログラムを実行し、結果を得ることで、テストセットに対するモデルの性能を評価します。提案されたモデルにはいくつかの利点があることがわかりました。第一に、視覚的質問応答や参照表現理解などの標準タスクで競争力のある性能を発揮します。第二に、あるタスクから学習したモジュールを新しいタスクにシームレスに転送できます。最後に、少数のトレーニング例を観察し、モジュールを再利用することで、新しい視覚的推論タスクに適応できることです。