翻訳付きの日次キュレーションされたAI研究論文
我々はFlorence-2を紹介する。これは、様々なコンピュータビジョンおよび視覚言語タスクに対して統一されたプロンプトベースの表現を持つ新しいビジョン基盤モデルである。既存の大規模ビジョンモデルは転移学習において優れているが、単純な指示で多様なタスクを実行する能力、つまり様々な空間階層や意味的粒度の複雑さを扱う能力に課題がある。Florence-2は、テキストプロンプトをタスク指示として受け取り、キャプショニング、物体検出、グラウンディング、セグメンテーションなどのテキスト形式で望ましい結果を生成するように設計されている。このマルチタスク学習の設定には、大規模で高品質な注釈データが必要である。この目的のために、我々は1億2600万枚の画像に54億の包括的な視覚注釈を含むFLD-5Bを共同開発し、自動画像注釈とモデル改良の反復戦略を採用した。Florence-2を訓練するために、シーケンス・ツー・シーケンス構造を採用し、多様で包括的なビジョンタスクを実行できるようにした。多数のタスクに対する広範な評価により、Florence-2が前例のないゼロショットおよびファインチューニング能力を持つ強力なビジョン基盤モデルの候補であることが示された。
オープンワールドにおけるマルチモーダル観測を用いた人間のような計画と制御の実現は、より機能的な汎用エージェントにとって重要なマイルストーンです。既存のアプローチは、オープンワールドにおける特定の長期タスクを処理できます。しかし、オープンワールドのタスク数が潜在的に無限である場合や、ゲーム時間の経過に伴ってタスク完了を段階的に向上させる能力が欠如している場合には、依然として困難を抱えています。本論文では、人気がありながらも挑戦的なオープンワールドであるMinecraftの世界において、マルチモーダル入力(視覚観測と人間の指示)を認識し、高度な計画を生成し、具現化された制御を実行できるオープンワールドエージェントJARVIS-1を紹介します。具体的には、視覚観測とテキスト指示を計画にマッピングする事前学習済みマルチモーダル言語モデルの上にJARVIS-1を構築しました。これらの計画は最終的に目標条件付きコントローラーにディスパッチされます。JARVIS-1にはマルチモーダルメモリを装備しており、事前学習された知識と実際のゲーム生存経験の両方を活用した計画立案を可能にします。実験では、JARVIS-1はMinecraft Universe Benchmarkの200以上の様々なタスク(初級から中級レベルまで)においてほぼ完璧なパフォーマンスを示しました。特に、長期タスクであるダイヤモンドのツルハシ作成タスクにおいて12.5%の達成率を記録し、これは従来の記録と比較して最大5倍の大幅な向上を表しています。さらに、JARVIS-1はマルチモーダルメモリのおかげで生涯学習パラダイムに従って自己改善が可能であり、より一般的な知能と改善された自律性を発揮することが示されました。プロジェクトページはhttps://craftjarvis-jarvis1.github.ioで公開されています。
テキストから3Dを生成する拡散モデルは、近年目覚ましい進歩を遂げています。しかし、既存の手法は、推論速度が遅く、多様性が低く、Janus問題(多面顔問題)に悩まされるスコア蒸留ベースの最適化に依存するか、3D学習データの不足により低品質な結果を生成するフィードフォワード手法に限られています。本論文では、テキストプロンプトから高品質で多様な3Dアセットをフィードフォワード方式で生成する新しい手法であるInstant3Dを提案します。私たちは2段階のパラダイムを採用し、まず微調整された2Dテキストから画像への拡散モデルを使用して、テキストから一発で4つの構造化された一貫性のあるビューを生成し、次に新たなトランスフォーマーベースのスパースビュー再構成器を使用して、生成された画像から直接NeRFを回帰します。広範な実験を通じて、私たちの手法が20秒以内に高品質で多様性があり、Janus問題のない3Dアセットを生成できることを実証しました。これは、1時間から10時間かかる従来の最適化ベースの手法よりも2桁高速です。プロジェクトのウェブページはこちらです:https://jiahao.ai/instant3d/。
我々は、統一されたデータ形式とオープンソースの大規模言語モデル(LLM)に基づくモジュール型アーキテクチャを採用した、言語エージェントのトレーニングのための新しいフレームワーク「Lumos」を紹介する。Lumosは、計画、接地、実行という3つの異なるモジュールで構成されている。計画モジュールは、タスクを一連の高レベルでツールに依存しないサブゴールに分解し、その後、接地モジュールがこれらのサブゴールを低レベルのアクションのセットを通じて具体化する。これらのアクションは、実行モジュールによって、さまざまな既存のツールやAPIを利用して実行される。これらのモジュールを効果的にトレーニングするために、サブゴールとアクションの高品質なアノテーションが収集され、複雑な質問応答、ウェブタスク、数学問題などのさまざまなタスクに対してオープンソースのLLMをファインチューニングするために利用可能となっている。この統一されたデータとモジュール設計を活用することで、Lumosは現在の最先端エージェントと同等またはそれ以上の性能を達成するだけでなく、いくつかの重要な利点を示している:(1)Lumosは、複雑な質問応答とウェブタスクにおいてGPT-4/3.5ベースのエージェントを上回り、数学タスクでは大幅に大きなLLMエージェントと同等の性能を発揮する;(2)Lumosは、従来のトレーニング方法や連鎖思考(chain-of-thoughts)トレーニングを使用して作成されたオープンソースエージェントを上回る;(3)Lumosは、未見のインタラクティブタスクに効果的に一般化でき、より大きなLLMベースのエージェントを上回り、専門エージェントの性能さえも超える。
大規模言語モデル(LLM)は、NLPおよびその他の分野で多くのタスクにおいて優れた性能を発揮しますが、ほとんどのオープンモデルは少数言語のカバー範囲が非常に限られており、LLMの研究は事前学習にほぼ無制限のデータが利用可能な言語に焦点を当てる傾向があります。本研究では、世界人口の0.1%未満が話すフィンランド語のLLM作成における課題を探ります。ウェブクロール、ニュース、ソーシャルメディア、電子書籍を組み合わせた広範なフィンランド語データセットを構築しました。モデルの事前学習には2つのアプローチを採用しました:1) 186Mから13Bパラメータまでの7つの単一言語モデルをゼロから学習し、FinGPTと命名、2) 多言語モデルBLOOMの事前学習を、元の学習データとフィンランド語の混合データで継続し、1760億パラメータのモデルBLUUMIを作成しました。モデル評価のために、フィンランド語タスクを含むBIG-benchのバージョンであるFIN-benchを導入しました。また、毒性やバイアスなどの他のモデル品質も評価しています。私たちのモデルとツールはhttps://turkunlp.org/gpt3-finnishで公開されています。
プロンプトエンジニアリングは、大規模言語モデル(LLM)のパフォーマンスを最適化するための挑戦的でありながら重要なタスクです。これには、モデルのエラーを検証し、現在のプロンプトに欠けている点や誤解を招く点を仮説立て、タスクを明確に伝えるための複雑な推論が必要です。最近の研究では、LLMをメタプロンプト化して自動プロンプトエンジニアリングを実行できることが示されていますが、メタプロンプトにおいてLLMの複雑な推論能力を引き出すための十分なガイダンスが不足しているため、その潜在能力が十分に発揮されていない可能性があります。本研究では、「プロンプトエンジニアをプロンプトエンジニアリングする」問題、つまり、LLMが自動プロンプトエンジニアリングをより効果的に実行するためのメタプロンプトを構築する問題を調査します。ステップバイステップの推論テンプレートやコンテキスト指定などの主要なコンポーネントを導入し、その性能向上を分析します。さらに、バッチサイズ、ステップサイズ、モーメンタムなどの一般的な最適化概念に着想を得て、それらの言語化された対応物をメタプロンプトに導入し、その効果を調査します。最終的な手法であるPE2は、「let's think step by step」をMultiArithデータセットで6.3%、GSM8Kデータセットで3.1%上回るプロンプトを見つけます。その汎用性を示すために、PE2をInstruction Inductionベンチマーク、一連の反事実タスク、および長文の実世界の産業用プロンプトに適用します。これらの設定において、PE2は強力なパフォーマンスを発揮し、従来の自動プロンプトエンジニアリングのベースラインを上回ります。さらに、PE2が意味のあるターゲットを絞ったプロンプト編集を行い、誤ったまたは不完全なプロンプトを修正し、非自明な反事実推論能力を示すことを示します。
論理的推論は、人間の知性の基本的な側面であり、問題解決や意思決定といったタスクの重要な構成要素です。近年の進歩により、大規模言語モデル(LLM)が推論能力を発揮する可能性が示されていますが、複雑な論理的推論は依然として課題となっています。最新の手法であるソルバー拡張言語モデルは、自然言語で記述された論理問題をまずシンボリック表現に解析し、その後外部の論理ソルバーにそのシンボリック表現を入力して答えを出力します。その性能は非常に高いものの、解析エラーが発生すると、外部の論理ソルバーの実行が失敗し、論理問題に対する答えが得られないという問題があります。本論文では、LoGiPTという新しい言語モデルを紹介します。LoGiPTは、論理ソルバーの推論プロセスを直接模倣し、ソルバーの構文と文法に厳密に従うことで解析エラーを回避します。LoGiPTは、演繹ソルバーの不可視な推論プロセスを明らかにし、それを基に新たに構築された指示チューニングデータセットで微調整されています。2つの公開された演繹推論データセットでの実験結果は、LoGiPTが最新のソルバー拡張言語モデルや、ChatGPTやGPT-4のような競争力のあるLLMに対するFew-shotプロンプティング手法を上回る性能を示すことを実証しています。
大規模な基盤モデルは至る所で利用されるようになっていますが、それらをゼロから訓練するのは非常に高コストです。そのため、これらの強力なモデルを下流タスクに効率的に適応させることがますます重要になっています。本論文では、下流タスク適応のための原理に基づいたファインチューニングパラダイム——直交ファインチューニング(OFT)——を研究します。OFTは良好な汎化性能を示すものの、直交行列の高次元性により、依然としてかなり多くの訓練可能なパラメータを使用します。この問題に対処するため、まずOFTを情報伝達の観点から検討し、よりパラメータ効率を高めるためのいくつかの重要な要件を特定します。クーリー・テューキーの高速フーリエ変換アルゴリズムが効率的な情報伝達を可能にする方法に着想を得て、バタフライ構造を用いた効率的な直交パラメータ化を提案します。このパラメータ化をOFTに適用し、新しいパラメータ効率型のファインチューニング手法である直交バタフライ(BOFT)を創出します。BOFTはOFTを特殊ケースとして包含し、一般化された直交ファインチューニングフレームワークを導入します。最後に、大規模なビジョントランスフォーマー、大規模言語モデル、およびテキストから画像への拡散モデルを、視覚と言語のさまざまな下流タスクに適応させるための広範な実証研究を行います。
長いフィルタを持つ畳み込みモデルは、多くの長系列タスクにおいて最先端の推論能力を実証してきましたが、最適化されたTransformerモデルと比較して実時間性能では遅れをとっています。主なボトルネックは高速フーリエ変換(FFT)です。FFTは長い畳み込みを系列長Nに対してO(N logN)時間で実行可能にしますが、ハードウェアの利用率が低いという問題があります。本論文では、FFT畳み込みの最適化方法を研究します。2つの主要なボトルネックを発見しました:FFTは専用の行列乗算ユニットを効果的に使用せず、メモリ階層間で高コストなI/Oを引き起こします。これに対応して、FlashFFTConvを提案します。FlashFFTConvは、行列乗算ユニットを使用してFFTを計算する行列分解を採用し、長系列におけるカーネル融合を可能にすることでI/Oを削減します。また、2つのスパース畳み込みアルゴリズムを提示します:1)部分畳み込みと2)周波数スパース畳み込みです。これらは行列分解のブロックをスキップするだけで実装可能であり、メモリと計算のさらなる節約の機会を提供します。FlashFFTConvは、PyTorchと比較して正確なFFT畳み込みを最大7.93倍高速化し、エンドツーエンドで最大4.4倍の高速化を達成します。同じ計算予算のもとで、FlashFFTConvはHyena-GPT-sがPILEデータセットで2.3ポイント良いパープレキシティを達成し、M2-BERT-baseがGLUEスコアで3.3ポイント向上させることができます。これはパラメータ数が2倍のモデルに匹敵する性能です。また、FlashFFTConvは高解像度視覚タスクであるPath-512で96.1%の精度を達成しました。これは、これまで50%以上の精度を達成したモデルがなかったタスクです。さらに、部分畳み込みはより長い系列のモデルを可能にし、最長のヒト遺伝子(230万塩基対)を処理できる初のDNAモデルを実現しました。周波数スパース畳み込みは、事前学習済みモデルの高速化を図りながら、モデルの品質を維持または向上させます。
大規模言語モデル(LLM)は、計画立案と環境への適応を必要とするインタラクティブな意思決定タスクにますます利用されています。最近の研究では、LLMをエージェントとして主に2つの方法で使用しています:次のアクションを反復的に決定する方法(反復的実行器)と、LLMを使用して計画を生成しサブタスクを実行する方法(計画と実行)です。しかし、これらの方法はタスクの複雑さに対処するのが難しく、サブタスクを実行できない場合にタスクが失敗する可能性があります。これらの欠点を解決するために、我々は複雑なタスクに対する必要に応じた分解と計画(ADaPT)を導入します。このアプローチでは、LLMがサブタスクを実行できない場合に、明示的に計画を立てて複雑なサブタスクを分解します。ADaPTは、タスクの複雑さとLLMの能力に適応するために、サブタスクを再帰的に分解します。我々の結果は、ADaPTが確立された強力なベースラインを大幅に上回り、ALFWorldでは最大28.3%、WebShopでは27%、TextCraft(我々が新たに導入した合成的データセット)では33%の成功率を達成することを示しています。詳細な分析を通じて、多段階分解の重要性を明らかにし、ADaPTが実行LLMの能力とタスクの複雑さに動的に適応することを確認しました。
マルチモーダル学習の主な課題の一つは、異種のモダリティ(例:映像、音声、テキスト)を組み合わせる必要性です。例えば、映像と音声はテキストよりもはるかに高いレートで取得され、時間的におおよそ同期しています。これらは、タイトルや説明などのグローバルな文脈として提供されるテキストとは必ずしも同期していません。さらに、映像と音声の入力ははるかに大きなボリュームを持ち、映像の長さに応じて増加するため、これらのモダリティに専念する計算リソースがより多く必要となり、長距離の依存関係のモデリングが難しくなります。 ここでは、マルチモーダルモデリングを分離し、モダリティの特性に応じて入力を処理する個別のフォーカスされた自己回帰モデルに分割します。我々は、Mirasol3Bと呼ばれるマルチモーダルモデルを提案します。このモデルは、時間的に同期されたモダリティ(音声と映像)のための自己回帰コンポーネントと、必ずしも時間的に同期していないが依然としてシーケンシャルな文脈モダリティのための自己回帰コンポーネントで構成されています。映像と音声の入力の長いシーケンスに対処するために、映像と音声のシーケンスを連続したスニペットにさらに分割し、それらの表現を自己回帰的に処理することを提案します。そのために、特定の時間枠内で音声と映像の情報を共同でモデル化するCombinerメカニズムを提案します。Combinerは、生の時空間信号から音声と映像の特徴を抽出することを学習し、その後、これらの特徴を融合して、スニペットごとにコンパクトで表現力豊かな表現を生成することを学習します。 我々のアプローチは、確立されたマルチモーダルベンチマークにおいて、はるかに大規模なモデルを上回る最先端の性能を達成します。これは、コンパクトな表現を学習し、音声と映像の特徴表現のシーケンス長を制御し、時間的な依存関係をモデル化することによって、メディア入力の高い計算需要に効果的に対処します。
特徴量間の相互作用を学習することは、推薦システムを構築する上で重要な基盤です。ウェブスケールのアプリケーションでは、入力特徴量空間が疎で大規模であるため、特徴量間の相互作用を学習することは極めて困難です。一方で、手作業で効果的な特徴量間の相互作用を設計することは、解空間が指数的に大きいため非現実的です。我々は、Transformerベースのアーキテクチャとアテンションレイヤーを活用して、特徴量間の相互作用を自動的に捉えることを提案します。Transformerアーキテクチャは、自然言語処理やコンピュータビジョンなど多くの分野で大きな成功を収めています。しかし、産業界では特徴量間の相互作用モデリングにTransformerアーキテクチャを採用する例はあまりありません。我々はこのギャップを埋めることを目指しています。ウェブスケールの推薦システムに標準的なTransformerアーキテクチャを適用する際の2つの主要な課題を特定しました:(1) Transformerアーキテクチャは、セルフアテンションレイヤーで異種の特徴量間の相互作用を捉えることができない、(2) Transformerアーキテクチャのサービングレイテンシが高すぎて、ウェブスケールの推薦システムに展開できない。まず、特徴量間の相互作用の異質性を考慮するために、Transformerのセルフアテンションレイヤーをシンプルかつ効果的に修正した異種セルフアテンションレイヤーを提案します。次に、モデルの表現力をさらに向上させるためにHiformer(Heterogeneous Interaction Transformer)を導入します。低ランク近似とモデルプルーニングにより、Hiformerはオンライン展開のための高速な推論を実現します。大規模なオフライン実験結果は、Hiformerモデルの有効性と効率性を裏付けています。我々は、HiformerモデルをGoogle Playの大規模なアプリランキングモデルに実際に展開し、主要なエンゲージメント指標で大幅な改善(最大+2.66%)を達成しました。
セマンティックセグメンテーション、深度推定、表面法線予測などの密な予測タスクは、ピクセルごとの分類(離散出力)または回帰(連続出力)として容易に定式化できます。このピクセルごとの予測パラダイムは、完全畳み込みネットワークの普及により、長らく人気を保ってきました。しかし、最近のセグメンテーションタスクの最前線では、特にマスクトランスフォーマーの登場により、ピクセルごとの予測からクラスター予測へのパラダイムシフトが起こっています。マスクトランスフォーマーは、ピクセルではなくマスクに対して直接ラベルを予測します。このシフトにもかかわらず、深度推定や表面法線予測など、連続出力を必要とする他の密な予測タスクでは、ピクセルごとの予測パラダイムに基づく手法が依然としてベンチマークを支配しています。DORNやAdaBinsが連続出力空間を離散化することで深度推定で成功を収めたことに着想を得て、我々はクラスター予測ベースの手法を一般的な密な予測タスクに一般化することを提案します。これにより、マスクトランスフォーマーフレームワークを用いて密な予測タスクを統一的に扱うことが可能になります。驚くべきことに、結果として得られたモデルPolyMaXは、NYUD-v2データセットの3つのベンチマークで最先端の性能を発揮しました。我々のシンプルでありながら効果的な設計が、より多くの密な予測タスクにおいてマスクトランスフォーマーを活用する研究を促進することを期待しています。コードとモデルは公開予定です。
近年、トランスフォーマーモデルはコンピュータビジョンタスクにおいて広く採用されています。しかし、入力トークン数に比例するセルフアテンションの二次的な時間およびメモリ複雑度のため、既存のVision Transformer(ViT)の多くは、TensorRTやCoreMLなどの実用的な産業展開シナリオにおいて効率的な性能を達成する上で課題に直面しています。従来のCNNが優れているこれらのシナリオにおいて、最近ではCNNとトランスフォーマーを組み合わせたハイブリッドアーキテクチャを設計する試みがなされていますが、その全体的な性能は期待に応えていません。これらの課題に対処するため、我々はFMViTという効率的なハイブリッドViTアーキテクチャを提案します。このアプローチでは、高周波特徴と低周波特徴を異なる周波数でブレンドすることでモデルの表現力を向上させ、局所的な情報とグローバルな情報を効果的に捕捉できるようにします。さらに、Convolutional Multigroup Reparameterization(gMLP)、Lightweight Multi-head Self-Attention(RLMHSA)、およびConvolutional Fusion Block(CFB)といった展開に適したメカニズムを導入し、モデルの性能をさらに向上させるとともに計算オーバーヘッドを削減します。我々の実験では、FMViTが既存のCNN、ViT、およびCNN-Transformerハイブリッドアーキテクチャを、さまざまなビジョンタスクにおけるレイテンシーと精度のトレードオフの点で凌駕することが示されています。TensorRTプラットフォームでは、FMViTはImageNetデータセットにおいてResnet101をトップ1精度で2.5%(83.3% vs. 80.8%)上回り、推論レイテンシーを同程度に維持しました。さらに、FMViTはEfficientNet-B5と同等の性能を達成しつつ、推論速度を43%向上させました。CoreMLでは、FMViTはImageNetデータセットにおいてMobileOneをトップ1精度で2.6%上回り、推論レイテンシーはMobileOneと同等でした(78.5% vs. 75.9%)。我々のコードはhttps://github.com/tany0699/FMViTで公開されています。