翻訳付きの日次キュレーションされたAI研究論文
大規模な視覚言語モデル、特にStable Diffusion(SD)を用いて、画像編集、画像対応、3D形状生成などの多様な下流タスクにおいて重要な進展が達成されてきた。これらの進展に触発され、本研究では、SLiMeを提案することで、わずか1つの注釈付きサンプルを用いて任意の粒度で画像をセグメンテーションするために、これらの大規模視覚言語モデルを活用する方法を探求する。SLiMeはこの問題を最適化タスクとして定式化する。具体的には、単一の訓練画像とそのセグメンテーションマスクが与えられた場合、まずSDの事前知識から、新たに提案した「重み付き累積自己注意マップ」を含む注意マップを抽出する。次に、抽出された注意マップを用いて、Stable Diffusionのテキスト埋め込みを最適化し、それぞれが訓練画像の単一のセグメント領域を学習するようにする。これらの学習された埋め込みは、注意マップ内でセグメント領域を強調し、それによってセグメンテーションマップを導出することができる。これにより、SLiMeは推論時に、訓練画像のセグメント領域の粒度で、任意の実世界の画像をセグメンテーションすることが可能となる。さらに、利用可能な場合には追加の訓練データ(すなわちfew-shot)を活用することで、SLiMeの性能が向上する。我々は、様々な設計要因を検証するための知識豊富な実験を行い、SLiMeが既存のワンショットおよびfew-shotセグメンテーション手法を凌駕することを示した。
従来の研究では、大規模言語モデルは計算機ツールを使用せずに、特に8桁以上の乗算や小数・分数を含む演算を正確に実行できないと一般的に考えられてきました。本論文はこの誤解に挑戦することを目的としています。十分な訓練データがあれば、20億パラメータの言語モデルはデータ漏洩なしにほぼ100%の精度で多桁の算術演算を正確に実行でき、GPT-4(その多桁乗算の精度はわずか4.3%)を大幅に上回ります。また、GLM-10Bを微調整したMathGLMが、追加の多段階算術演算やテキストで記述された数学問題を含むデータセットで訓練され、5,000サンプルの中国語数学問題テストセットにおいてGPT-4と同等の性能を達成することを示します。
我々はCM3Leon(「カメレオン」と発音)を紹介する。これは、検索拡張型のトークンベースデコーダ専用マルチモーダル言語モデルであり、テキストと画像の両方の生成とインフィリングが可能である。CM3LeonはCM3マルチモーダルアーキテクチャを使用しているが、さらにスケールアップと多様な指示形式データでのチューニングがもたらす極めて大きな利点を示している。テキスト専用言語モデルから適応したレシピを用いて訓練された初のマルチモーダルモデルであり、大規模な検索拡張型事前学習段階と、第二段階としてのマルチタスク教師ありファインチューニング(SFT)段階を含む。また、テキストから画像、画像からテキストの両方の生成が可能な汎用モデルでもあり、高品質な出力を生成する自己完結型のコントラスティブデコーディング手法を導入することができる。広範な実験により、このレシピがマルチモーダルモデルに対して極めて有効であることが実証されている。CM3Leonは、同等の手法と比べて5分の1の訓練計算量で、テキストから画像生成において最先端の性能を達成している(ゼロショットMS-COCO FID 4.88)。SFT後、CM3Leonは言語誘導型画像編集から画像制御型生成・セグメンテーションに至るタスクにおいて、前例のないレベルの制御性を実証することができる。
私たちは、高速なTTS音響モデリングのための新しいエンコーダ-デコーダアーキテクチャであるMatcha-TTSを紹介します。これは、最適輸送条件付きフローマッチング(OT-CFM)を用いて訓練されています。これにより、スコアマッチングを用いて訓練されたモデルよりも少ない合成ステップで高品質な出力が可能なODEベースのデコーダが実現されます。慎重に設計された選択肢により、各合成ステップの実行速度も高速化されています。この手法は確率的で非自己回帰的であり、外部のアライメントなしでゼロから話すことを学習します。強力な事前訓練済みベースラインモデルと比較して、Matcha-TTSシステムは最小のメモリフットプリントを持ち、長い発話において最速のモデルと同等の速度を達成し、リスニングテストで最高の平均オピニオンスコアを獲得しました。音声サンプル、コード、事前訓練済みモデルについては、https://shivammehta25.github.io/Matcha-TTS/をご覧ください。
最近の視覚言語モデル(VLM)の進展により、視覚的質問応答や画像キャプション生成などのタスクにおける性能が向上しています。その結果、これらのモデルは物理世界、特にロボット操作などの領域において推論を行うのに適した位置づけとなりました。しかし、現在のVLMは、一般的な物体の物理的概念(例えば、材質、脆弱性)の理解において制限があり、これがそのような物体との相互作用や物理的推論を必要とするロボット操作タスクにおける有用性を制約しています。この制限に対処するため、我々はPhysObjectsを提案します。これは、36.9Kのクラウドソーシングおよび417Kの自動化された物理的概念アノテーションを含む、一般的な家庭用品に焦点を当てたデータセットです。我々は、PhysObjectsでVLMをファインチューニングすることで、視覚的外観からこれらの概念に関する人間の事前知識を捉え、物理的オブジェクト概念の理解が向上することを実証します。この物理的基盤を持つVLMを、大規模言語モデルベースのロボットプランナーとのインタラクティブなフレームワークに組み込み、物理的オブジェクト概念に関する推論を必要とするタスクにおいて、物理的基盤を持たないベースラインと比較して計画性能が向上することを示します。さらに、我々は物理的基盤を持つVLMが実機ロボットにおいてタスクの成功率を向上させる利点を実証します。我々はデータセットを公開し、結果の詳細と可視化をhttps://iliad.stanford.edu/pg-vlm/で提供します。
高周波信号を表現するために訓練されたニューラルネットワークのカテゴリーであるニューラルフィールドは、近年、複雑な3Dデータ、特に大規模なニューラル符号付き距離場(SDF)や放射輝度場(NeRF)を単一の多層パーセプトロン(MLP)でモデル化する際の優れた性能により、大きな注目を集めています。しかし、MLPを用いて信号を表現する手法の強力さと簡潔さにもかかわらず、MLPの容量が限られているため、大規模で複雑な時間的信号をモデル化する際には依然として課題が残っています。本論文では、この制限を解決するための効果的なアプローチとして、ニューラルフィールドに時間的残差層を組み込んだResFieldsを提案します。ResFieldsは、複雑な時間的信号を効果的に表現するために特別に設計された新しいクラスのネットワークです。私たちはResFieldsの特性を包括的に分析し、訓練可能なパラメータの数を削減し、汎化能力を向上させるための行列分解技術を提案します。重要な点として、私たちの定式化は既存の技術とシームレスに統合され、2Dビデオ近似、時間的SDFによる動的形状モデリング、動的NeRF再構築といったさまざまな困難なタスクにおいて一貫して結果を改善します。最後に、軽量キャプチャシステムの疎なセンサー入力から動的3Dシーンを捉える際のResFieldsの実用的な有用性を実証します。
ニューラルラジアンスフィールド(NeRF)は、視点合成や深度推定などのアプリケーションで有望な成果を示していますが、多視点画像からの学習には本質的な不確実性が伴います。現在の不確実性を定量化する方法は、ヒューリスティックであるか、計算コストが高いかのいずれかです。本論文では、BayesRaysを紹介します。これは、学習プロセスを変更することなく、事前に学習された任意のNeRFの不確実性を評価するポストホックフレームワークです。本手法は、空間摂動とベイジアン・ラプラス近似を用いて体積不確実性フィールドを確立します。我々はアルゴリズムを統計的に導出し、主要な指標とアプリケーションにおいてその優れた性能を示します。追加の結果は、https://bayesrays.github.io でご覧いただけます。
人間の器用さは運動制御の特徴である。私たちの手は、筋骨格感覚運動回路の複雑さ(多関節・多接合、40以上の筋肉によって制御される23の関節)にもかかわらず、新しい行動を迅速に合成することができる。本研究では、人間の器用さが単一のタスクを通じて獲得されるのではなく、多様な過去の経験に基づいて構築されることに着想を得た。この観察に基づき、私たちは以前の経験を基に新しい(以前は達成できなかった)行動を迅速に獲得できるエージェントの開発に着手した。具体的には、生理学的に現実的な人間の手のモデルであるMyoHandを使用して、マルチタスク学習を活用し、人間のような器用さのためのタスクに依存しない行動事前分布(MyoDex)を暗黙的に捕捉するアプローチを採用した。私たちは、MyoDexの数ショットでの一般化能力と、多数の未経験の器用な操作タスクへの正の転移効果を実証した。MyoDexを活用したエージェントは、蒸留ベースラインと比較して約3倍のタスクを解決し、4倍の速さで学習することができる。これまでの研究では単一の筋骨格制御行動を合成してきたが、MyoDexは、多様な接触の多い行動にわたる器用な生理学的制御の学習を促進する最初の一般化可能な操作事前分布である。また、筋骨格制御を超えて、24自由度のAdroit Handにおける器用さの獲得に向けた私たちのパラダイムの有効性も実証した。ウェブサイト: https://sites.google.com/view/myodex