翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)における最近のブレークスルーは、データが豊富な少数の言語に集中している。では、第一級市民言語を超えて、これらのブレークスルーへのアクセスを広げるためには何が必要だろうか?本研究では、101の言語で指示に従う大規模多言語生成言語モデル「Aya」を紹介する。そのうち50%以上は低リソース言語と見なされている。Ayaは、大多数のタスクにおいてmT0とBLOOMZを上回り、かつカバーする言語数を2倍に拡大している。我々は、99の言語にわたる多言語評価の最先端を広げるための広範な新しい評価スイートを導入した。これには、識別タスクと生成タスク、人間による評価、および未見タスクと分布内性能の両方をカバーするシミュレートされた勝率が含まれる。さらに、最適なファインチューニングの混合構成、データのプルーニング、およびモデルの毒性、バイアス、安全性について詳細な調査を行った。我々は、指示データセットとモデルをhttps://hf.co/CohereForAI/aya-101でオープンソースとして公開している。
コンピュータとの自律的なインタラクションは、長年にわたる課題でありながら大きな可能性を秘めており、大規模言語モデル(LLM)の最近の普及により、デジタルエージェントの構築が著しく加速しています。しかし、これらのエージェントの多くは、特定のソフトウェアやウェブサイトなど、狭い領域とのインタラクションを目的として設計されています。このような狭い焦点は、一般的なコンピュータタスクへの適用性を制限しています。この目的のために、私たちはOS-Copilotを紹介します。これは、ウェブ、コードターミナル、ファイル、マルチメディア、およびさまざまなサードパーティアプリケーションを含むオペレーティングシステム(OS)内の包括的な要素とインターフェースできる汎用エージェントを構築するためのフレームワークです。私たちはOS-Copilotを使用して、一般的なコンピュータタスクを自動化するための自己改善型エージェントであるFRIDAYを作成しました。一般的なAIアシスタントのベンチマークであるGAIAにおいて、FRIDAYは以前の手法を35%上回り、過去のタスクから蓄積されたスキルを通じて未見のアプリケーションへの強い汎化能力を示しています。また、FRIDAYがExcelやPowerpointを最小限の監督下で制御し、自己改善することを学ぶ数値的および定量的な証拠も提示します。私たちのOS-Copilotフレームワークと実証的な発見は、より能力が高く汎用性のあるコンピュータエージェントに向けた将来の研究のためのインフラストラクチャと洞察を提供します。
大規模言語モデル(LLM)は、分子特性予測、分子生成、実験プロトコル設計など、化学分野での応用において目覚ましい進歩を遂げてきました。しかし、化学に特化した対話型モデルはまだ存在していません。この課題は、化学データや科学知識のほとんどが構造化データベースに保存されており、これらの構造化データを直接使用すると、モデルが一貫した対話を維持する能力が損なわれるという事実に起因しています。この問題を解決するため、我々は構造化された知識を平易な対話に変換する新しいテンプレートベースの指示構築法を開発し、言語モデルのトレーニングに適した形式にしました。このアプローチを活用して、化学に特化した初の大規模言語モデルであるChemLLMを開発し、化学分野のさまざまなタスクをスムーズな対話インタラクションで実行可能にしました。ChemLLMは、化学の主要な3つのタスク(名称変換、分子キャプション、反応予測)においてGPT-3.5を上回り、そのうち2つのタスクではGPT-4をも凌駕しました。特に注目すべきは、ChemLLMが主に化学中心のコーパスでトレーニングされているにもかかわらず、関連する数学や物理のタスクにも優れた適応性を示した点です。さらに、ChemLLMは、文献翻訳やケモインフォマティクスプログラミングなど、化学分野における専門的な自然言語処理タスクにも熟達しています。ChemLLMは化学研究における新たな探求の道を開き、構造化された化学知識を対話システムに統合する我々の手法は、さまざまな科学分野におけるLLM開発の新たなフロンティアを築きました。コード、データセット、およびモデルウェイトはhf.co/AI4Chem/ChemLLM-7B-Chatで公開されています。
Mixture-of-Experts(MoE)アーキテクチャに基づく大規模言語モデル(LLMs)は、さまざまなタスクで有望な性能を示しています。しかし、GPUメモリリソースが十分でないリソース制約のある環境でこれらのモデルを実行することは、モデルサイズが巨大であるため困難です。既存のシステムでは、モデルの重みをCPUメモリにオフロードする際に、CPUとGPU間での頻繁なデータ移動による大きなオーバーヘッドが発生します。本論文では、MoEモデルのためのCPU-GPUオーケストレーションを備えたリソース効率の高い推論エンジンであるFiddlerを提案します。Fiddlerの鍵となるアイデアは、CPUの計算能力を活用してCPUとGPU間のデータ移動を最小限に抑えることです。評価の結果、Fiddlerは90GBを超えるパラメータを持つ非圧縮のMixtral-8x7Bモデルを、24GBメモリの単一GPU上で1秒あたり3トークン以上生成することができ、既存の方法と比べて桁違いの改善を示しました。Fiddlerのコードはhttps://github.com/efeslab/fiddlerで公開されています。
ビジョン言語モデル(VLMs)は、論理的推論から視覚的理解まで、さまざまなタスクで印象的な能力を示しています。これにより、例えばロボット制御など、世界とのより豊かな相互作用の扉が開かれます。しかし、VLMsはテキスト出力のみを生成する一方で、ロボット制御やその他の空間的タスクでは、連続的な座標、アクション、または軌跡を出力する必要があります。タスク固有のデータでファインチューニングすることなく、VLMsがそのような設定を処理できるようにするにはどうすればよいでしょうか? 本論文では、VLMsのための新しい視覚的プロンプティングアプローチを提案します。これを「Prompting with Iterative Visual Optimization(PIVOT)」と呼び、タスクを反復的な視覚的質問応答としてキャストします。各反復において、画像はVLMsが参照できる提案の視覚的表現(例えば、候補となるロボットアクション、位置特定、または軌跡)で注釈付けされます。その後、VLMはタスクに最適な提案を選択します。これらの提案は反復的に洗練され、VLMが最終的に最適な答えにたどり着くことを可能にします。私たちは、PIVOTを実世界のロボットナビゲーション、画像からの実世界の操作、シミュレーションでの指示追従、および位置特定などの追加の空間推論タスクで調査しました。驚くべきことに、私たちのアプローチは、ロボットトレーニングデータなしでロボットシステムのゼロショット制御、さまざまな環境でのナビゲーション、およびその他の能力を可能にすることがわかりました。現在のパフォーマンスは完璧とは程遠いですが、私たちの研究はこの新しい体制の可能性と限界を強調し、ロボットおよび空間推論領域でのインターネットスケールVLMsの有望なアプローチを示しています。ウェブサイト:pivot-prompt.github.io および HuggingFace:https://huggingface.co/spaces/pivot-prompt/pivot-prompt-demo。
笑いは、人間の音声表現において最も自然で豊かな要素の一つであり、感情や社会的な合図、ユーモアを伝える重要な役割を果たします。しかし、ほとんどのテキスト読み上げ(TTS)システムは、現実的で適切な笑い声を生成する能力を欠いており、その応用範囲とユーザー体験を制限しています。これまでにも自然な笑い声を生成する試みはありましたが、生成される笑いのタイミングや多様性を制御する点で不十分でした。本研究では、ELaTEを提案します。これは、短い音声プロンプトに基づいて任意の話者の自然な笑い声を生成し、笑いのタイミングと表現を精密に制御できるゼロショットTTSです。具体的には、ELaTEは、音声特性を模倣するための音声プロンプト、生成される音声の内容を示すテキストプロンプト、そして笑いの表現を制御する入力(笑いの開始・終了時間、または模倣すべき笑いを含む追加の音声プロンプト)を処理します。我々は、条件付きフローマッチングに基づくゼロショットTTSを基盤としてモデルを開発し、笑い検出器からのフレームレベル表現を追加の条件付けとしてファインチューニングを行いました。小規模な笑い条件付きデータと大規模な事前学習データを混合するシンプルな手法により、事前学習済みのゼロショットTTSモデルが、その品質を損なうことなく、精密な制御性を備えた自然な笑い声を生成できることを実証しました。評価を通じて、ELaTEが従来のモデルと比較して、はるかに高い品質と制御性を備えた笑い声を生成できることを示します。デモサンプルはhttps://aka.ms/elate/をご覧ください。
AIモデルのサイズが大きくなるにつれ、ニューラルスケーリング則は、大規模モデルの能力と元の(人間または自然の)トレーニングデータのサイズを増加させた際の改善を予測するための重要なツールとなっています。しかし、人気モデルの広範な使用により、オンラインデータやテキストのエコシステムは、合成データの量が徐々に増加するように共進化していくでしょう。本論文では、合成データがトレーニングコーパスに混入する不可避の状況において、スケーリング則がどのように変化するかを問います。将来のモデルは、依然として改善されるのか、それとも完全な(モデルの)崩壊に至る運命にあるのか?私たちは、スケーリング則の視点からモデル崩壊の理論的フレームワークを構築します。スケーリングの喪失、世代数によるスケーリングのシフト、スキルの「アンラーニング」、そして人間データと合成データを混合した際の「グロッキング」といった幅広い衰退現象を分析します。私たちの理論は、算術タスクにおけるトランスフォーマーと大規模言語モデルLlama2を用いたテキスト生成の大規模実験によって検証されています。
視覚条件付き言語モデル(VLM)は、視覚的対話、シーン理解、ロボットタスクプランニングなどのアプリケーションで採用が拡大しており、LLaVa、InstructBLIP、PaLI-3などの新しいモデルの開発を促進しています。新モデルのリリースが相次ぐ中、画像の前処理、アーキテクチャ、最適化に関する重要な設計決定は十分に検討されておらず、モデルの性能を左右する要因を理解することが困難です。この課題は、客観的で一貫した評価の欠如によってさらに複雑化しています。これらのギャップを埋めるため、まず、視覚的質問応答、言語からの物体位置特定、幻覚などの特性を探るターゲットチャレンジセットを含む標準化された評価スイートを構築し、VLMの能力を較正された細かい粒度で洞察する評価を提供します。次に、事前学習された視覚表現や、ベースモデルと指示チューニングされた言語モデルの使用のトレードオフの定量化など、主要な設計軸に沿ってVLMを厳密に調査します。この分析に加えて、3つのリソースを提供します:(1)VLMを評価するための統一フレームワーク、(2)VLMトレーニングのための最適化された柔軟なコード、(3)すべてのモデルのチェックポイント、特にInstructBLIPやLLaVa v1.5といったオープンソースVLMの最先端を厳密に上回る7-13BスケールのVLMファミリーを含みます。
言語モデルの数学的推論能力を向上させるため、継続的プレトレーニングにおいて基盤言語モデルを活用した自律的なデータ選択戦略を新たに提案します。従来の教師ありファインチューニングや人間によるアノテーションデータを用いた分類器とは異なり、本手法ではメタプロンプト化された言語モデルをゼロショット検証器として活用し、高品質な数学的コンテンツを自律的に評価・選択します。また、200GB以上のデータを網羅したオープンソースのAutoMathTextデータセットを公開しました。本手法の有効性を実証するため、7BパラメータのMistral言語モデルをAutoMathTextデータセットで継続的にプレトレーニングし、MATHデータセットにおける下流タスクのパフォーマンスを大幅に向上させました。これにより、従来の継続的プレトレーニング研究と比較して、トークン量を桁違いに削減することに成功しました。本手法は、ベースラインと比較して2倍のプレトレーニングトークン効率を示し、モデルの数学的推論能力を強化する本アプローチの可能性を強調しています。AutoMathTextデータセットはhttps://huggingface.co/datasets/math-ai/AutoMathTextで、コードはhttps://github.com/yifanzhang-pro/AutoMathTextで公開されています。
エキスパートの混合(Mixture of Experts, MoE)モデルは、大規模言語モデルの計算コストを削減するための主要な解決策として登場しました。本研究では、拡張された変数の範囲を組み込みながら、そのスケーリング特性を分析します。具体的には、エキスパートのサイズを精密に制御することを可能にする新しいハイパーパラメータである「粒度」を導入します。これを基盤として、トレーニングトークン数、モデルサイズ、および粒度を考慮した、細粒度MoEのスケーリング則を確立します。これらの法則を活用し、与えられた計算予算に対して最適なトレーニング構成を導出します。我々の研究結果は、MoEモデルが密なTransformerモデルを一貫して上回るだけでなく、モデルサイズとトレーニング予算をスケールアップするにつれて、密なモデルとMoEモデル間の効率の差が広がることを示しています。さらに、MoEにおけるエキスパートのサイズをフィードフォワード層に合わせるという一般的な慣行が、ほとんどすべての計算予算において最適ではないことを実証します。
本研究では、大規模言語モデル(LLM)に対する人間のフィードバックを用いた強化学習(RLHF)において生じる課題である、応答長さに対する報酬ハッキングの問題を検討します。LLMから出力される、形式が整っているが冗長で有用性の低い応答は、LLM自体や人間の評価者を欺いて高いスコアを獲得することがしばしばあります。この問題は、RLにおける一部の報酬モデルにも当てはまります。トレーニングと評価の両方における課題に対処するため、我々は異なるトレーニング設定を比較するためのより信頼性の高い評価プロトコルを確立しました。このプロトコルでは、トレーニングのハイパーパラメータを変化させることで得られるLLMの評価スコアと応答長さのトレードオフを検証します。この評価に基づき、大規模な研究を実施し、その結果から、RLにおいて使用されるハイパーパラメータやテクニックが長さバイアスを軽減する効果についての洞察を得ました。さらに、報酬モデルを改善するために、共有された特徴表現に基づいて2つの線形ヘッドを共同でトレーニングし、一方を長さと相関するように、もう一方を長さと無相関にすることで実際の内容に焦点を当てるようにすることを提案します。その後、RLにおいて長さヘッドを破棄し、長さに対する報酬ハッキングを防ぎます。実験結果は、我々のアプローチが長さとの報酬相関をほぼ完全に排除し、得られるポリシーを大幅に改善することを示しています。
LinkedInにおいて、最先端のモデルアーキテクチャと最適化手法を実運用に導入する大規模ランキングフレームワーク「LiRank」を発表します。本フレームワークでは、Residual DCNを含む複数のモデリング改善を提案します。Residual DCNは、有名なDCNv2アーキテクチャにアテンションと残差接続を追加したものです。Dense Gating、Transformers、Residual DCNといった最先端アーキテクチャを組み合わせて調整し、統一モデルを構築するための洞察を共有します。また、キャリブレーションのための新技術を提案し、深層学習ベースの探索/活用手法を実運用化した方法について説明します。大規模ランキングモデルの効果的で実運用レベルの提供を可能にするため、量子化と語彙圧縮を用いたモデルの学習と圧縮の詳細を解説します。フィードランキング、ジョブレコメンデーション、広告クリック率(CTR)予測といった大規模ユースケースのためのデプロイメント設定についても詳細を提供します。各種A/Bテストから得られた知見をまとめ、最も効果的な技術的アプローチを明らかにします。これらのアイデアは、LinkedIn全体で相対的な指標改善に貢献しました:フィードでのメンバーセッション+0.5%、ジョブ検索とレコメンデーションでの適格な求人応募+1.76%、広告CTR+4.3%です。本論文が、大規模な深層ランキングシステムを活用したい実務者にとって実践的な洞察とソリューションを提供できることを期待しています。
本論文では、効果的な構成的テキストから3D生成のためのGALA3D(Generative 3D GAussians with LAyout-guided control)を提案します。まず、大規模言語モデル(LLMs)を活用して初期レイアウトを生成し、適応的な幾何学的制約を伴うレイアウト誘導型3Dガウシアン表現を導入します。次に、条件付き拡散を用いたオブジェクト-シーン構成的最適化メカニズムを提案し、一貫した幾何学、テクスチャ、スケール、および複数のオブジェクト間の正確な相互作用を備えた現実的な3Dシーンを協調的に生成します。同時に、LLMsから抽出された粗いレイアウト事前情報を生成されたシーンに合わせて調整します。実験結果から、GALA3Dはユーザーフレンドリーでエンドツーエンドのフレームワークであり、最先端のシーンレベル3Dコンテンツ生成と制御可能な編集を実現しつつ、シーン内のオブジェクトレベルのエンティティの高忠実度を保証します。ソースコードとモデルはhttps://gala3d.github.io/で公開予定です。
自己アライメントは、有望なモデル能力を確保しつつ、人間によるアノテーションのコストを削減する効果的な方法です。しかし、現在のほとんどの手法では、データ収集とトレーニングのステップを1回のラウンドで完了させており、自己アライメントモデルの継続的に向上する能力を見落としている可能性があります。これにより、重要な疑問が生じます:もし複数回のブートストラップ自己アライメントを行ったらどうなるのか?この戦略はモデルの性能を向上させるのか、それとも急速な劣化を招くのか?本論文では、ブートストラップ自己アライメントが大規模言語モデルに与える影響について先駆的な探求を行います。我々の調査結果は、ブートストラップ自己アライメントが、コンテキスト内学習によるデータの多様性を保証することで、単一ラウンドのアプローチを著しく上回ることを明らかにしています。ブートストラップの能力をさらに活用するために、データのトレーニング順序を調査し調整することで、モデルの性能向上を実現しました。これらの知見に基づき、モデルの継続的に強化される少数ショット能力を活用して、ゼロショットまたはワンショットの性能を向上させるStep-On-Feet Tuning(SOFT)を提案します。また、易しいものから難しいものへとトレーニングするレシピに基づいて、SOFT+を提案し、自己アライメントの性能をさらに向上させます。我々の実験は、SOFT(SOFT+)がさまざまな分類タスクおよび生成タスクにおいて効率的であることを示し、ブートストラップ自己アライメントがモデルのアライメント性能を継続的に向上させる可能性を強調しています。
我々は、指示追従における模倣学習のため、望ましい行動(指示で指定されたタスクを達成するための行動)を特定するLanguage Feedback Models(LFMs)を提案する。LFMsを訓練するために、視覚的軌跡を言語記述に変換し、大規模言語モデル(LLMs)からフィードバックを取得する。まず、LFMsを用いて模倣すべき望ましい行動を特定することで、3つの異なる言語基盤環境(Touchdown、ScienceWorld、ALFWorld)において、強力な行動クローニングベースラインを上回るタスク達成率の向上を実現する。次に、LLMの出力トークン数を制御した場合、LFMsはLLMsをエキスパートとして直接行動を予測する手法を上回る性能を示す。さらに、LFMsは未見の環境にも適応可能であり、1回の適応を通じてタスク達成率を3.5-12.0%向上させる。最後に、LFMは性能を損なうことなく人間が解釈可能なフィードバックを提供するように変更可能であり、模倣学習における望ましい行動の人間による検証を可能にする。