翻訳付きの日次キュレーションされたAI研究論文
Magic123を紹介します。これは、2Dと3Dの事前知識を活用して、野生環境で撮影された単一の未ポーズ画像から高品質なテクスチャ付き3Dメッシュを生成するための、粗から細へと進む2段階アプローチです。第1段階では、ニューラルラジアンスフィールドを最適化して粗い形状を生成します。第2段階では、メモリ効率の良い微分可能なメッシュ表現を採用し、視覚的に魅力的なテクスチャを持つ高解像度メッシュを生成します。両段階において、3Dコンテンツは参照ビューの教師信号と、2Dおよび3D拡散事前知識を組み合わせた新規ビューのガイダンスを通じて学習されます。生成される形状の探索(より想像力豊か)と活用(より精密)を制御するために、2Dと3Dの事前知識の間の単一のトレードオフパラメータを導入します。さらに、テキスト反転と単眼深度正則化を採用し、ビュー間で一貫した外観を促進し、縮退解を防止します。Magic123は、合成ベンチマークと多様な実世界画像を用いた広範な実験を通じて、従来の画像から3Dへの技術と比較して大幅な改善を示しています。私たちのコード、モデル、および生成された3Dアセットはhttps://github.com/guochengqian/Magic123で公開されています。
大規模言語モデル(LLMs)は、ロボットが複雑な推論タスクを実行するための有望なツールを提供します。しかし、現代のLLMsの限られたコンテキストウィンドウにより、長期的な時間軸にわたる推論が困難となっています。家庭用ロボットが実行することが期待されるような具体的なタスクでは、プランナーが過去に取得した情報(例えば、ロボットが以前に環境で遭遇した多くのオブジェクトの特性)を考慮する必要があります。LLMの暗黙的な内部表現を使用して世界の状態を捕捉しようとする試みは、ロボットのアクション履歴に含まれるタスクおよび環境に関連する情報の不足により複雑化します。一方、プロンプトを介してLLMに情報を伝達する能力に依存する方法は、その限られたコンテキストウィンドウの制約を受けます。本論文では、Statlerというフレームワークを提案します。Statlerは、LLMに「記憶」としての明示的な世界状態表現を付与し、これを時間をかけて維持します。Statlerの中核は、世界モデルリーダーと世界モデルライターという2つの一般的なLLMインスタンスを使用し、これらが世界状態とインターフェースし、維持することです。この世界状態「記憶」へのアクセスを提供することで、Statlerは既存のLLMsがコンテキスト長の制約なしに長期的な時間軸にわたって推論する能力を向上させます。我々は、3つのシミュレーションされたテーブルトップ操作ドメインと実ロボットドメインにおいて、このアプローチの有効性を評価し、LLMベースのロボット推論において最先端の性能を向上させることを示します。プロジェクトウェブサイト: https://statler-lm.github.io/
ビジョントランスフォーマー(ViT)は、コンピュータビジョンの分野に大きな変革をもたらし、定期的に畳み込みニューラルネットワーク(CNN)と比較して視覚タスクにおいて優れた性能を示してきました。どちらのモデルタイプが優れているかはまだ結論が出ていませんが、それぞれが持つ独自の帰納的バイアスが、学習と汎化性能を形作っています。例えば、ViTは初期層における非局所的な特徴依存性や、学習の柔軟性を高めるセルフアテンションメカニズムといった興味深い特性を持ち、文脈外の画像情報をより効果的に無視することができます。我々は、この文脈外の情報を無視する力(我々はこれをパッチ選択性と呼びます)が、初期層で文脈内の情報を非局所的に統合する能力と相まって、ViTがオクルージョンをより容易に処理できるのではないかと仮説を立てました。本研究では、パッチミキシングというデータ拡張手法を用いて、この帰納的バイアスを効果的に組み込むことで、CNNがこのパッチ選択性の能力をシミュレートできるかどうかを検証することを目的としています。パッチミキシングは、別の画像からパッチをトレーニング画像に挿入し、2つの画像クラス間でラベルを補間する手法です。具体的には、最先端のViTとCNNをパッチミキシングでトレーニングし、文脈外のパッチを無視し、自然なオクルージョンを処理する能力への影響を評価します。その結果、ViTはパッチミキシングでトレーニングしても性能が向上も低下もしないのに対し、CNNは文脈外の情報を無視する新たな能力を獲得し、オクルージョンベンチマークで改善が見られることがわかりました。これにより、このトレーニング方法は、ViTが既に持つ能力をCNNでシミュレートする方法であると結論づけました。我々は、パッチミキシングの実装と提案されたデータセットを公開し、一般利用に供する予定です。プロジェクトページ: https://arielnlee.github.io/PatchMixing/
深層学習理論において、表現の共分散行列はネットワークの学習可能性を検証するための代理指標として機能する。Transformerの成功に着想を得て、我々は無限深度・無限幅の比例極限における、スキップ接続を備えた修正版Softmaxベースの注意機構モデルの共分散行列を研究する。初期化時において、その極限分布は深度対幅比によってインデックス付けされた確率微分方程式(SDE)によって記述可能であることを示す。明確な確率的極限を達成するため、Transformerの注意機構を修正し、Softmax出力を単位行列を中心に配置し、Softmaxのロジットを幅に依存する温度パラメータでスケーリングする。対応するSDEを通じてネットワークの安定性を検証し、ドリフトと拡散のスケールが残差接続の助けを借りてエレガントに制御可能であることを示す。安定したSDEの存在は、非常に大きな深度と幅においても共分散構造が良好に振る舞うことを意味し、深層注意モデルにおける悪名高いランク縮退問題を防ぐ。最後に、シミュレーションを通じて、SDEが対応する有限サイズモデルを驚くほど良く記述することを示す。我々はこれらのアーキテクチャ修正を「shaped Transformer」と名付ける。
本論文では、効率的なパンオプティックセグメンテーションのためのマスクトランスフォーマーの学習を促進し、その展開を民主化する新しいメカニズムを提案します。パンオプティックセグメンテーションの学習目的は、その高い複雑さゆえに、必然的に偽陽性に対するペナルティが大幅に高くなることを観察しました。このような不均衡な損失は、エンドツーエンドのマスクトランスフォーマーベースのアーキテクチャ、特に効率的なモデルの学習プロセスを困難にします。本論文では、パンオプティックセグメンテーションの学習中にマスク予測とクラス予測に緩和を加えるReMaXを提案します。学習中にこれらの単純な緩和技術を用いることで、推論時の追加計算コストなしに、モデルを明確なマージンで一貫して改善できることを実証します。MobileNetV3-Smallのような効率的なバックボーンと本手法を組み合わせることで、COCO、ADE20K、Cityscapesにおける効率的なパンオプティックセグメンテーションの新たな最先端結果を達成します。コードと事前学習済みチェックポイントはhttps://github.com/google-research/deeplab2で公開予定です。