翻訳付きの日次キュレーションされたAI研究論文
言語モデルは、個々の推論において実際にはそのニューロンの指数関数的な一部のみを使用すれば十分である。その証拠として、我々はFastBERTを提示する。これは推論時にニューロンの0.3%のみを使用しながら、類似のBERTモデルと同等の性能を発揮するBERTの変種である。FastBERTは各層の推論において、4095個のニューロンのうちわずか12個を選択的に活性化する。これはフィードフォワードネットワークを高速フィードフォワードネットワーク(FFFs)に置き換えることで実現されている。条件付きニューラル実行の完全な加速ポテンシャルを引き出す真に効率的な実装は現時点では存在しないが、我々は最適化されたベースラインのフィードフォワード実装に対して78倍の高速化を達成する高水準のCPUコードと、同等のバッチ処理されたフィードフォワード推論に対して40倍の高速化を実現するPyTorch実装を提供する。我々はトレーニングコード、ベンチマーク設定、およびモデル重みを公開する。
Orca 1は、説明トレースなどの豊富なシグナルから学習し、BigBench HardやAGIEvalなどのベンチマークで従来の指示チューニングモデルを凌駕する性能を発揮します。Orca 2では、改善されたトレーニングシグナルがより小さな言語モデル(LM)の推論能力をどのように向上させるかを引き続き探求しています。小さなLMのトレーニングに関する研究では、しばしば模倣学習を用いてより能力の高いモデルの出力を再現することが行われてきました。しかし、模倣に過度に依存することは、小さなモデルの潜在能力を制限する可能性があると私たちは考えます。私たちは、小さなLMに対して、タスクごとに異なる解決戦略を採用することを教えることを目指しています。これは、より大きなモデルが使用する戦略とは異なる場合もあります。例えば、より大きなモデルが複雑なタスクに対して直接的な答えを提供する一方で、小さなモデルは同じ能力を持たないかもしれません。Orca 2では、モデルにさまざまな推論手法(ステップバイステップ、リコールして生成、リコール-推論-生成、直接回答など)を教えます。さらに重要なのは、モデルが各タスクに対して最も効果的な解決戦略を決定することを学ぶことを支援することです。Orca 2は、15の多様なベンチマーク(約100のタスクと36,000以上のユニークなプロンプトに対応)を使用して評価されます。Orca 2は、同サイズのモデルを大幅に上回り、ゼロショット設定で高度な推論能力をテストする複雑なタスクにおいて、5~10倍大きいモデルと同等またはそれ以上の性能を達成します。私たちは、Orca 2をオープンソース化し、小さなLMの開発、評価、アラインメントに関するさらなる研究を促進します。
モーションが豊富なアクションや高度な視覚効果を含む高ダイナミックな動画の作成は、人工知能の分野において重要な課題となっています。残念ながら、現在の最先端の動画生成手法は、主にテキストから動画を生成することに焦点を当てており、高い忠実度を維持しているものの、最小限の動きしか含まない動画クリップを生成する傾向があります。本論文では、テキスト指示のみに依存する動画生成は不十分であり、最適ではないと主張します。本論文では、拡散モデルに基づく新しいアプローチであるPixelDanceを紹介します。この手法は、動画生成において最初と最後のフレームの画像指示をテキスト指示と組み合わせて使用します。公開データを用いて訓練されたPixelDanceは、複雑なシーンと入り組んだ動きを含む動画を合成する能力が大幅に優れており、動画生成の新たな基準を確立することを包括的な実験結果が示しています。
Transformerベースの大規模言語モデル(LLM)におけるソフトアテンションは、文脈から無関係な情報を潜在表現に取り込む傾向があり、これが次のトークン生成に悪影響を及ぼします。この問題を改善するため、我々は「System 2 Attention(S2A)」を提案します。S2Aは、LLMが自然言語で推論し、指示に従う能力を活用して、何に注意を向けるかを決定します。S2Aは、最終的な応答を引き出す前に、関連する部分のみを含むように入力文脈を再生成し、その再生成された文脈に注意を向けます。実験では、意見や無関係な情報を含む3つのタスク(QA、数学文章題、長文生成)において、S2Aは標準的なアテンションベースのLLMを上回り、事実性と客観性を向上させ、迎合性を減少させました。
LoRAは、特定のタスクにLLMを適応させる際に、驚異的なリソース効率と同等の性能を達成します。ChatGPTが様々なタスクで優れた性能を示して以来、1つのモデルをすべてのタスクに適応させたいという要望が高まっています。しかし、LoRAの明示的な低ランク性は、複雑なマルチタスクシナリオでの適応性能を制限します。LoRAは少数のトップ特異ベクトルに支配される一方で、ファインチューニングは重要性の低いユニタリ変換の集合に分解されます。本論文では、LoRAで観察されるトップ特異ベクトルの支配を減らすことで、より良いマルチタスク適応を実現するMultiLoRAを提案します。MultiLoRAはLoRAモジュールを水平方向にスケーリングし、適応行列のパラメータ初期化を変更してパラメータ依存性を低減し、よりバランスの取れたユニタリ部分空間を生成します。我々は、指示追従、自然言語理解、世界知識のデータセットを混合して、意味的および構文的に異なるサンプルをカバーする特殊なトレーニングデータを前例なく構築しました。追加パラメータのわずか2.5%で、MultiLoRAは単一のLoRAやファインチューニングを複数のベンチマークとモデルスケールで上回ります。MultiLoRAの重み更新行列のさらなる調査では、トップ特異ベクトルへの依存性が低減され、より民主的なユニタリ変換の寄与が示されています。
本論文では、生物学、物理学、化学の各分野の専門家によって作成された448の多肢選択問題からなる挑戦的なデータセット「GPQA」を紹介する。本データセットは、高品質かつ極めて難易度の高い問題を確保しており、対応する分野で博士号を取得中または取得済みの専門家でも正答率は65%(専門家が後から明らかな誤りと特定した問題を除くと74%)に留まる。一方、高度なスキルを持つ非専門家の検証者は、平均30分以上をかけ、ウェブへの無制限アクセスを許可されたにもかかわらず、正答率は34%に留まる(すなわち、これらの問題は「Google耐性」である)。また、最先端のAIシステムにとっても難易度が高く、我々が構築した最も強力なGPT-4ベースのベースラインでも正答率は39%である。将来のAIシステムを、例えば新たな科学的知見の開発といった非常に難しい問題の解決に活用するためには、人間がその出力を監督可能なスケーラブルな監視手法を開発する必要がある。これは、監督者自身が高度なスキルと知識を有している場合でも困難な課題である。GPQAの難易度は、熟練した非専門家と最先端のAIシステムの両方にとって現実的なスケーラブルな監視実験を可能にし、人間の専門家がAIシステムから信頼性の高い真実の情報を得る方法を考案する一助となることを期待する。
本論文では、大規模言語モデルにおけるパラメータ効率的かつモジュール型の転移学習を統合するオープンソースライブラリ「Adapters」を紹介します。10種類の多様なアダプタ手法を統一インターフェースに統合することで、Adaptersは使いやすさと柔軟な設定を提供します。本ライブラリは、研究者や実務者がコンポジションブロックを通じてアダプタのモジュール性を活用し、複雑なアダプタ設定を設計することを可能にします。様々なNLPタスクにおいて、フルファインチューニングとの性能比較を行うことで、本ライブラリの有効性を実証します。Adaptersは、従来のファインチューニングパラダイムの課題に対処し、より効率的でモジュール型の転移学習を促進する強力なツールを提供します。本ライブラリはhttps://adapterhub.ml/adaptersで公開されています。
本論文では、視覚品質、プロンプト整合性、シーン多様性を高めた状態で、特定のドメインにおいてLatent Diffusion Models(LDMs)を微調整する手法「Style Tailoring」を提案します。ターゲットドメインとしてステッカー画像生成を選択しました。これは、大規模LDMsが通常生成するフォトリアルなサンプルとは大きく異なるためです。まず、Emuのような優れたテキスト画像生成モデルをベースに、フォトリアルなモデルを用いたプロンプトエンジニアリングによるステッカー生成では、プロンプト整合性とシーン多様性が低いことを示します。これらの欠点を克服するため、まず弱教師あり学習で収集した数百万のステッカー風画像を用いてEmuを微調整し、多様性を引き出します。次に、モデル生成から人間参加型(HITL)のAlignmentデータセットとStyleデータセットをキュレーションし、それぞれプロンプト整合性とスタイル整合性を向上させるために微調整を行います。これらのデータセットに対する逐次的な微調整は、スタイル整合性とプロンプト整合性の向上の間でトレードオフを生じさせます。このトレードオフに対処するため、コンテンツとスタイル分布を同時に適合させる新たな微調整手法「Style Tailoring」を提案し、最適なトレードオフを実現します。評価結果によると、本手法はベースのEmuモデルをプロンプトエンジニアリングしてステッカーを生成する場合と比較して、視覚品質を14%、プロンプト整合性を16.2%、シーン多様性を15.3%向上させることが示されました。
テキストから3D生成における最近の進展は、生成モデルにおける重要なマイルストーンを示しており、様々な現実世界のシナリオにおける創造的な3Dアセット作成の新たな可能性を切り開いています。しかしながら、テキストから3D生成の最近の進展は有望であるものの、詳細で高品質な3Dモデルのレンダリングにおいてしばしば不十分です。この問題は、多くの手法がスコア蒸留サンプリング(SDS)に基づいていることから特に顕著です。本論文では、SDSが3Dモデルに対して一貫性のない低品質な更新方向をもたらし、過剰平滑化効果を引き起こすという重大な欠陥を指摘します。これを解決するため、我々はインターバルスコアマッチング(ISM)と呼ばれる新たなアプローチを提案します。ISMは決定論的な拡散軌道を採用し、インターバルベースのスコアマッチングを活用して過剰平滑化に対抗します。さらに、テキストから3D生成パイプラインに3Dガウシアンスプラッティングを組み込みます。大規模な実験により、我々のモデルが品質と学習効率の両面で最先端の手法を大きく上回ることを示します。
言語モデルのパラメータ数をスケールアップすることが、性能向上に有効なアプローチであることが実証されています。密なモデルでは、モデルサイズを増やすと比例して計算量も増加します。本研究では、大規模で知識豊富な語彙ベースのルーティング関数とエキスパートを備えたMixture-of-Experts(MoE)スタイルのモデルを通じて、学習能力とFLOPsを積極的に分離することを目指しています。私たちが提案するアプローチは、Mixture of Word Experts(MoWE)と呼ばれ、大規模な単語固有のエキスパートが疎なメモリの役割を果たす、メモリ拡張モデルと見なすことができます。MoWEが、様々なNLPタスクにおいて、同程度のFLOPsを持つT5ファミリーモデルよりも大幅に優れた性能を発揮することを示します。さらに、MoWEは知識集約型タスクにおいて通常のMoEモデルを上回り、疎なメモリを検索するためにカスタムメカニズムを起動する必要があるより複雑なメモリ拡張アプローチと同等の性能を発揮します。
ストーリー可視化は、テキストで記述されたストーリーに一致する一連の画像を生成することを目的としており、生成された画像が高品質であること、テキスト記述との整合性、およびキャラクターの一貫性を満たすことが求められる。ストーリー可視化の複雑さを考慮すると、既存の手法では、特定の少数のキャラクターやシナリオのみを考慮したり、ユーザーにスケッチなどの画像ごとの制御条件を提供することを要求したりすることで、問題を大幅に単純化している。しかし、これらの簡略化により、これらの手法は実用的なアプリケーションには不適格となっている。この問題に対処するため、我々は、最小限の人的介入で多様で高品質かつ一貫性のあるストーリー画像セットを効果的に生成できる自動化されたストーリー可視化システムを提案する。具体的には、大規模言語モデルの理解力と計画能力を活用してレイアウト計画を行い、その後、大規模なテキストから画像へのモデルを利用してレイアウトに基づいて洗練されたストーリー画像を生成する。我々は、バウンディングボックスなどの疎な制御条件がレイアウト計画に適している一方で、スケッチやキーポイントなどの密な制御条件が高品質な画像コンテンツの生成に適していることを実証的に見出した。両方の利点を最大限に活用するため、我々は、単純なバウンディングボックスのレイアウトをスケッチやキーポイントの制御条件に変換する密な条件生成モジュールを考案し、最終的な画像生成に活用する。これにより、画像品質が向上するだけでなく、ユーザーが容易かつ直感的に操作できるようになる。さらに、多視点一貫性のあるキャラクター画像を生成するためのシンプルかつ効果的な手法を提案し、キャラクター画像を収集または描画するための人的労力への依存を排除する。
古代の水車からロボティック・プロセス・オートメーション(RPA)に至るまで、自動化技術は歴史を通じて進化し、人間を過酷な作業から解放してきました。しかし、RPAは、特にワークフロー構築の精巧な設計やワークフロー実行における動的な意思決定など、人間のような知能を必要とするタスクに苦戦しています。大規模言語モデル(LLM)が人間のような知能を備えるようになったことを受け、本論文では、エージェント関連の構築と実行に人間の労力を委譲することで高度な自動化を実現する、LLMベースのエージェントを用いた画期的な自動化パラダイムであるエージェンティック・プロセス・オートメーション(APA)を紹介します。さらに、人間の指示からワークフローを構築し、専門エージェントを調整して複雑な意思決定を行うように設計されたLLMベースのエージェントであるProAgentを具体化します。ワークフローの構築と実行手順を詳細に示すための実証実験を行い、APAの実現可能性を示し、エージェントによって駆動される新しい自動化パラダイムの可能性を明らかにします。私たちのコードはhttps://github.com/OpenBMB/ProAgentで公開されています。
大規模言語モデル(LLM)は、タスク計画と外部ツール(APIなど)の使用を組み合わせる必要があるタスクに対処する能力を示しています。しかし、現実世界の複雑なシステムでは、タスク計画とツール使用に関して以下の3つの主要な課題が存在します:(1) 実際のシステムには通常、膨大な数のAPIが存在するため、トークン長が制限されているLLMのプロンプトにすべてのAPIの説明を入力することは不可能です;(2) 実際のシステムは複雑なタスクを処理するように設計されており、ベースのLLMではそのようなタスクに対する正しいサブタスクの順序やAPI呼び出しの順序を計画することが困難です;(3) 実際のシステムでは、API間の類似した意味論や機能性が、LLMだけでなく人間にとってもそれらを区別する上で課題を生み出します。これに対応するため、本論文では、現実世界のシステムで動作するLLMベースのエージェントのタスク計画とツール使用(TPTU)能力を向上させるための包括的なフレームワークを提案します。このフレームワークは、これらの課題に対処するために設計された3つの主要なコンポーネントで構成されています:(1) APIリトリーバーは、利用可能な膨大なAPIの中からユーザータスクに最も関連性の高いAPIを選択します;(2) LLMファインチューナーは、ベースのLLMを調整し、ファインチューンされたLLMがタスク計画とAPI呼び出しにより適したものになるようにします;(3) デモセレクターは、区別が難しいAPIに関連する異なるデモンストレーションを適応的に取得し、それをインコンテキスト学習に活用して最終的なパフォーマンスを向上させます。私たちは、現実世界の商用システムおよびオープンソースの学術データセットを使用して提案手法を検証し、各コンポーネントおよび統合されたフレームワークの有効性を明確に示しました。
汎用視覚言語モデルであるGPT-4V(ision)を強化し、人間の行動観察を統合することでロボット操作を促進するパイプラインを紹介します。このシステムは、人間がタスクを実行する動画を分析し、アフォーダンスの洞察を取り入れた実行可能なロボットプログラムを作成します。計算プロセスは、まずGPT-4Vを使用して動画を分析し、環境と行動の詳細をテキストに変換することから始まり、次にGPT-4を活用したタスクプランナーが続きます。その後の分析では、視覚システムがタスクプランを用いて動画を再分析します。オブジェクト名はオープン語彙オブジェクト検出器を使用してグラウンディングされ、手とオブジェクトの関係に焦点を当てることで把持と解放の瞬間を検出します。この時空間的グラウンディングにより、視覚システムはさらにアフォーダンスデータ(例:把持タイプ、ウェイポイント、身体姿勢)を収集することができます。さまざまなシナリオでの実験により、この方法がゼロショットで人間のデモンストレーションから実ロボットの操作を実現する効果を実証しています。GPT-4V/GPT-4のプロンプトは以下のプロジェクトページで利用可能です: https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/
大規模言語モデル(LLM)を活用した研究の現状は、急速な発展を遂げています。多くの研究が、これらのモデルの強力な推論能力を活用して、テキスト、音声、画像、動画など様々なモダリティを理解しています。また、LLMを利用して人間の意図を理解し、画像、動画、音楽などの所望の出力を生成することも行われています。しかし、LLMを用いた理解と生成の両方を組み合わせた研究はまだ限られており、初期段階にあります。このギャップを埋めるため、我々はマルチモーダル音楽理解と生成(M^{2}UGen)フレームワークを提案します。このフレームワークは、LLMの能力を統合し、異なるモダリティの音楽を理解し生成することを目的としています。M^{2}UGenフレームワークは、事前学習済みのMERT、ViT、ViViTモデルをそれぞれ使用して、音楽、画像、動画といった多様なインスピレーション源から創造的な可能性を引き出すために特別に設計されています。音楽生成を可能にするため、AudioLDM 2とMusicGenの使用を検討しています。マルチモーダル理解と音楽生成を橋渡しするために、LLaMA 2モデルを統合しています。さらに、MU-LLaMAモデルを利用して、テキスト/画像/動画から音楽を生成するための大規模なデータセットを生成し、M^{2}UGenフレームワークのトレーニングを容易にしています。提案したフレームワークの徹底的な評価を行い、実験結果は我々のモデルが現在の最先端モデルの性能を達成または上回ることを示しています。