翻訳付きの日次キュレーションされたAI研究論文
我々は、人間が書いたテキストに対応する指示を自動的にラベル付けすることで、高品質な指示追従型言語モデルを構築するスケーラブルな手法を提案する。本手法は「指示逆翻訳(instruction backtranslation)」と名付けられ、少量のシードデータでファインチューニングされた言語モデルと、与えられたウェブコーパスから始まる。シードモデルは、ウェブ文書に対して指示プロンプトを生成し(自己拡張)、これらの候補から高品質な例を選択する(自己選定)ことで、トレーニング例を構築するために使用される。このデータを用いて、より強力なモデルをファインチューニングする。我々のアプローチを2回繰り返してLLaMaをファインチューニングすることで、蒸留データに依存しないAlpacaリーダーボードにおいて、他の全てのLLaMaベースのモデルを上回る性能を示し、非常に効果的な自己整合性を実証した。
強力な大規模言語モデルの登場に伴い、これらのモデルをカジュアルな会話やロールプレイアプリケーションに活用することへの関心が高まっています。しかし、既存の会話およびロールプレイ用データセットは、現実世界のロールプレイ参加者が示す多様で微妙な相互作用を十分に捉えられていないことが多いです。この制約を解決し、急速に成長しているこの分野に貢献するため、我々はPIPPA(Personal Interaction Pairs between People and AI)という部分的に合成されたデータセットを紹介します。PIPPAは、ロールプレイ愛好家のグループによるコミュニティ主導のクラウドソーシング活動の結果として作成されました。このデータセットは、26,000の会話セッションにわたって分布する100万以上の発話を含み、ロールプレイシナリオにおける会話型AIシステムの探索と改良のための豊富なリソースを研究者やAI開発者に提供します。
最先端のニューラルネットワークを訓練するには、計算資源と時間の面で高いコストがかかります。モデルの規模は、最先端の性能を達成し向上させるための重要な要素として認識されています。ニューラルネットワークの規模を拡大する場合、通常はモデルのすべてのパラメータをランダムに初期化してゼロから再始動する必要があります。これは、アーキテクチャのパラメータが変更されるため、小規模なモデルからの知識を直接転移することができないからです。本研究では、トランスフォーマーベースのニューラルネットワークの規模を機能を維持しながら段階的に拡大するための6つの合成可能な変換を提案します。これにより、必要に応じてモデルの容量を拡張することが可能になります。各変換について、最小限の初期化制約の下で正確な機能保存を証明します。提案手法は、訓練を通じてアーキテクチャを段階的に拡張することで、より大規模で強力なモデルの効率的な訓練パイプラインを可能にするかもしれません。
大規模言語モデル(LLM)の大きな成功は、LLMを活用した自律エージェント(LAA)の新たな探求を促しています。LAAは、その中核となるLLMを用いて行動を生成し、環境と相互作用することが可能であり、過去の観察や行動などの相互作用を条件として複雑なタスクを解決する能力を促進します。LAAの研究はまだ非常に新しいため、限られた探求しか行われていません。そこで、本論文では、エージェントアーキテクチャとLLMバックボーンの両面からLAAの包括的な比較を提供します。さらに、複数のLAAを調整する新しい戦略を提案します。この戦略では、各LAAが特定のタイプの行動に集中し、コントローラーが複数のエージェント間のコミュニケーションを管理します(BOLAA)。意思決定と多段階推論の環境でシミュレーションを行い、LAAの能力を包括的に検証します。性能結果は、LAAアーキテクチャの設計、LLMの最適な選択、および両者の互換性に関する定量的な示唆を提供します。LAAの実装コードをhttps://github.com/salesforce/BOLAAで公開しています。
この1年、テキストプロンプトによる画像生成において驚異的な進展が見られました。その基盤となったのは、テキストと画像の領域を共同で表現するクロスモーダル表現空間という概念です。ASR(自動音声認識)の分野では、この概念は共同音声-テキストエンコーダとして応用され、非ペアの音声とテキストの両方で訓練することで、非常に大規模なパラメータモデルの能力をスケールさせることが可能になりました。これらの手法は有望ではあるものの、音声とテキストの間に内在するシーケンス長の不一致を特別に扱う必要があり、アップサンプリングのヒューリスティックや明示的なアライメントモデルを用いてきました。本研究では、共同音声-テキストエンコーダがシーケンス長を無視することで、自然にモダリティ間で一貫した表現を達成することを示す証拠を提示し、一貫性損失が長さの違いを許容し、最適なアライメントを単に仮定する可能性を論じます。このような損失が、大規模パラメータの単一言語システムと多言語システムの両方において、下流のWER(単語誤り率)を改善することを示します。
ネットワークトポロジーと通信グラフの分析は、現代のネットワーク管理において重要な役割を果たしています。しかし、一貫したアプローチの欠如は、学習曲線の急峻化、エラーの増加、そして非効率性を引き起こしています。本論文では、大規模言語モデル(LLM)を活用して自然言語クエリからタスク固有のコードを生成する、自然言語ベースのネットワーク管理体験を促進する新たなアプローチを提案します。この手法は、ネットワークオペレータが生成されたコードを検査できるようにすることで説明可能性を確保し、LLMとネットワークデータを共有する必要をなくすことでプライバシーを保護し、アプリケーション固有のリクエストと一般的なプログラム合成技術を組み合わせることでスケーラビリティに対応します。ベンチマークアプリケーションを用いてプロトタイプシステムを設計・評価し、高い精度、コスト効率、そして補完的なプログラム合成技術を用いたさらなる改善の可能性を示しました。