翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクにおいて有用であり、モデルサイズが大きくなるほど性能が向上し、最も優れたオープンソースモデルは500億以上のパラメータを有しています。しかし、これらの500億パラメータを超えるモデルを使用するにはハイエンドのハードウェアが必要であり、ほとんどの研究者にとってアクセスが困難です。本研究では、LLMのコスト効率の良い推論とファインチューニングの方法を調査し、ローカル戦略と分散戦略を比較します。我々は、十分に大きなモデル(500億パラメータ以上)であっても、消費者向けネットワーク上の地理的に分散したデバイスで効率的に実行できることを観察しました。これにより、複数の研究グループやボランティアのアイドル状態の計算リソースをプールすることで、LLMを効率的に実行できる可能性があります。我々は二つの未解決問題に取り組みます:(1)どのデバイスも突然切断される可能性がある状況下で、信頼性の高い推論とファインチューニングをどのように行うか、(2)ハードウェアが不均一なデバイス間でLLMをどのように分割し、自由に参加・離脱できるようにするか。これらを実現するために、特別なフォールトトレラントな推論アルゴリズムと、システム全体のスループットを最大化するためにデバイスを自動的に割り当てるロードバランシングプロトコルを開発しました。これらのアルゴリズムを、Llama 2(700億パラメータ)とBLOOM(1760億パラメータ)をインターネット上で実行する分散システム「Petals」で実証し、インタラクティブ生成においてオフロードよりも最大10倍高速に動作することを示します。我々は、シミュレーション環境と2大陸にまたがる実世界のセットアップでシステムの性能を評価しました。
既存のオープン語彙画像セグメンテーション手法では、マスクアノテーションや画像-テキストデータセットを用いたファインチューニングが必要とされる。マスクラベルは人手による作業が多く、セグメンテーションデータセットのカテゴリ数を制限してしまう。その結果、事前学習された視覚言語モデル(VLM)のオープン語彙能力は、ファインチューニング後に大幅に低下する。一方で、ファインチューニングを行わない場合、弱い画像-テキスト監視下で学習されたVLMは、画像内に存在しない概念を指すテキストクエリに対して、最適でないマスク予測を行う傾向がある。これらの課題を緩和するため、我々は関連性の低いテキストを段階的にフィルタリングし、学習を必要とせずにマスク品質を向上させる新しいリカレントフレームワークを提案する。リカレントユニットは、重みが固定されたVLMを基盤とした2段階のセグメンターで構成されている。これにより、我々のモデルはVLMの広範な語彙空間を保持しつつ、セグメンテーション能力を強化する。実験結果は、我々の手法が学習不要の手法を上回るだけでなく、数百万の追加データサンプルでファインチューニングされた手法をも凌駕し、ゼロショット意味セグメンテーションと参照画像セグメンテーションの両タスクにおいて新たな最先端記録を樹立することを示している。具体的には、Pascal VOC、COCO Object、Pascal Contextにおいて、それぞれ28.8、16.0、6.9 mIoUの向上を達成した。
3Dシミュレーション環境はエンボディドAIにおいて重要な役割を果たしますが、その作成には専門知識と多大な手作業が必要であり、多様性と範囲が制限されています。この制限を緩和するため、私たちはHolodeckを提案します。これは、ユーザーが提供したプロンプトに完全に自動で対応する3D環境を生成するシステムです。Holodeckは、アーケード、スパ、博物館など多様なシーンを生成し、デザインをスタイルに合わせて調整することができます。さらに、「猫を飼っている研究者のアパート」や「スターウォーズのファンである教授のオフィス」といった複雑なクエリの意味を捉えることができます。Holodeckは、シーンの外観に関する常識的な知識を大規模言語モデル(GPT-4)を活用し、Objaverseの大規模な3Dアセットコレクションを使用してシーンを多様なオブジェクトで埋め尽くします。オブジェクトを正しく配置するという課題に対処するため、GPT-4にオブジェクト間の空間的関係制約を生成させ、それらの制約を満たすようにレイアウトを最適化します。大規模な人間による評価では、アノテーターは住宅シーンにおいて手動で設計された手続き型ベースラインよりもHolodeckを好み、Holodeckが多様なシーンタイプに対して高品質の出力を生成できることが示されました。また、HolodeckのエンボディドAIにおける興味深い応用例として、音楽室や保育園といった新しいシーンでエージェントをナビゲートする訓練を、人間が構築したデータなしで行うことを実証しました。これは、汎用エンボディドエージェントの開発において重要な一歩です。
本研究は、テキストから画像への拡散モデルの効率向上を目指すものである。拡散モデルでは、各生成ステップにおいて計算コストの高いUNetベースのノイズ除去操作が使用されるが、すべての操作が最終的な出力品質に同等に関与しているわけではないことが明らかになった。特に、高解像度の特徴マップを操作するUNet層は、小さな摂動に対して比較的敏感であることが観察された。一方、低解像度の特徴マップは最終画像の意味的レイアウトに影響を与えるが、しばしば摂動を加えても出力に目立った変化が見られない。この観察に基づき、我々はClockwork Diffusionを提案する。この手法では、先行するノイズ除去ステップからの計算を定期的に再利用し、1つ以上の後続ステップにおける低解像度の特徴マップを近似する。複数のベースラインに対して、テキストから画像生成および画像編集の両方において、Clockworkが大幅に計算量を削減しながら同等または改善された知覚スコアを達成することを実証した。例として、Stable Diffusion v1.5において8ステップのDPM++を使用した場合、FIDとCLIPの変化を無視できる範囲で32%のFLOPsを削減した。
本論文では、6D物体姿勢推定とトラッキングのための統一基盤モデルであるFoundationPoseを提案する。本モデルは、モデルベースとモデルフリーの両設定をサポートする。テスト時に、CADモデルが提供されるか、少数の参照画像が撮影されていれば、新規物体に対して微調整なしで即座に適用可能である。我々は、ニューラル暗黙的表現を用いてこれら2つの設定のギャップを埋め、下流の姿勢推定モジュールを同一の統一フレームワーク下で不変に保つ。大規模な合成データによるトレーニング、大規模言語モデル(LLM)の活用、新規のトランスフォーマーベースアーキテクチャ、およびコントラスティブラーニングの定式化により、強力な汎化性能を実現した。複数の公開データセットを用いた広範な評価により、挑戦的なシナリオや物体を含む状況において、本統一アプローチが各タスクに特化した既存手法を大きく上回ることを示す。さらに、仮定を減らしたにもかかわらず、インスタンスレベル手法と同等の結果を達成する。プロジェクトページ: https://nvlabs.github.io/FoundationPose/
大規模言語モデル(LLM)は、文の解析、ドメイン知識の関連付け、複合的な論理的推論、および中間的な根拠の統合といった包括的な能力を必要とする複雑な数学的問題を解決する上で課題に直面しています。これらの問題を一度に解決しようとすると、LLMにとっては困難であり、生成過程での混乱を引き起こす可能性があります。本研究では、数学的推論プロセスを緻密に分解しモデル化することで、エージェントを用いてLLMを強化する可能性を探ります。具体的には、数学的問題解決の形式的な記述を提案し、Planner-Reasoner-Executor-Reflector(PRER)というエージェントベースのゼロショットフレームワークをLLMに拡張します。さらに、異なる粒度と方向性を持つアクションプールを通じて論理形式と内在的関係を定義する2つのMathAgentを提供し、実装します。MathAgent-MはそのアクションをLLMに適応させ、MathAgent-Hは人間に合わせます。miniF2FとMATHでの実験により、PRERと提案されたMathAgentの有効性が実証され、MiniF2Fでは12.3%(53.9%→66.2%)、MATHでは9.2%(49.8%→59.0%)、MATHのレベル5問題では13.2%(23.2%→35.4%)の向上を達成し、GPT-4に対して優位性を示しました。さらに、分析結果を通じて、LLMのエージェントとしての挙動を活用するためのより深い洞察を提供します。
根拠発見(Rationale discovery)とは、下流タスクの予測を最大限に支持する入力データの部分集合を見つけることと定義されます。グラフ機械学習の文脈では、グラフ根拠(graph rationale)は、与えられたグラフトポロジー内の重要な部分グラフを特定するものと定義され、これが予測結果を根本的に決定します。根拠部分グラフとは対照的に、残りの部分グラフは環境部分グラフ(environment subgraph)と呼ばれます。グラフの根拠化(graph rationalization)は、グラフ根拠と予測ラベルとの間のマッピングが不変であると仮定されるため、モデルの性能を向上させることができます。抽出された根拠部分グラフの識別力を確保するために、「介入(intervention)」と呼ばれる重要な技術が適用されます。介入の核心的な考え方は、環境部分グラフがどのように変化しても、根拠部分グラフからの意味が不変であり、これが正しい予測結果を保証するというものです。しかし、既存のグラフデータに対する根拠化研究のほとんど、あるいは全てが、グラフレベルでの介入戦略を開発しており、これは粗粒度なものです。本論文では、グラフデータに対して適切に調整された介入戦略を提案します。私たちのアイデアは、Transformerモデルの発展に基づいており、その自己注意(self-attention)モジュールが入力ノード間の豊富な相互作用を提供します。自己注意モジュールに基づいて、私たちが提案する不変グラフTransformer(IGT)は、細粒度、具体的にはノードレベルおよび仮想ノードレベルの介入を実現できます。私たちの包括的な実験では、7つの実世界のデータセットを使用し、提案されたIGTは13のベースラインメソッドと比較して顕著な性能優位性を示しました。
ニューラルレンダリングの最近の進展により、暗黙的なコンパクトモデルが、複数の視点からシーンの幾何学と視点依存の外観を学習できることが示されています。このような小さなメモリフットプリントを維持しつつ、より高速な推論時間を実現するために、最近の研究では、暗黙的なニューラルラジアンスフィールドにおいて、各光線に沿って少数の点を適応的にサンプリングする「サンプラー」ネットワークが採用されています。これらの手法はレンダリング時間を最大10倍削減しますが、従来のNeRFと比較して品質の大幅な低下が依然として見られます。これに対し、我々はProNeRFを提案します。ProNeRFは、メモリフットプリント(NeRFと同程度)、速度(HyperReelよりも高速)、品質(K-Planesよりも優れている)の間で最適なトレードオフを提供します。ProNeRFは、新しい投影認識サンプリング(PAS)ネットワークと、光線の探索と活用のための新しいトレーニング戦略を備えており、効率的な微細な粒子サンプリングを可能にします。我々のProNeRFは、NeRFよりも15~23倍高速で、PSNRが0.65dB高く、また、公開されている最良のサンプラーベースの手法であるHyperReelよりもPSNRが0.95dB高い、最先端のメトリクスを達成します。我々の探索と活用のトレーニング戦略により、ProNeRFはシーン全体の色と密度分布を学習すると同時に、最高密度領域に焦点を当てた効率的な光線サンプリングを学習します。広く採用されている前方視点および360度データセットであるLLFFとBlenderにおいて、我々の手法の有効性を支持する広範な実験結果を提供します。