翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデルとビジョントランスフォーマーの進化に伴い、視覚言語モデル(VLM)への関心が高まっています。このテーマに関する文献は豊富に存在するものの、VLMの設計に関する重要な決定がしばしば正当化されていないことが観察されます。これらの根拠のない決定は、どの選択がモデルの性能向上に寄与するのかを特定することを困難にし、分野の進展を妨げていると私たちは主張します。この問題に対処するため、事前学習済みモデル、アーキテクチャの選択、データ、および訓練方法に関する広範な実験を行いました。得られた知見を統合し、80億パラメータの効率的な基盤VLMであるIdefics2を開発しました。Idefics2は、そのサイズカテゴリーにおいて、さまざまなマルチモーダルベンチマークで最先端の性能を達成し、しばしばその4倍のサイズのモデルと同等の性能を示します。私たちは、モデル(ベース、指示付き、チャット)とその訓練用に作成されたデータセットを公開します。
本技術レポートでは、オンライン反復型人間フィードバック強化学習(RLHF)のワークフローを紹介します。最近の大規模言語モデル(LLM)に関する文献では、オンラインRLHFがオフライン版を大きく上回る性能を示すことが広く報告されています。しかし、既存のオープンソースRLHFプロジェクトは、依然としてオフライン学習の設定に大きく制限されています。本技術レポートでは、このギャップを埋め、再現が容易なオンライン反復型RLHFの詳細なレシピを提供することを目指します。特に、リソースが限られたオープンソースコミュニティにとってオンライン人間フィードバックは通常実現不可能であるため、多様なオープンソースデータセットを使用して選好モデルを構築し、構築された代理選好モデルを用いて人間フィードバックを近似することから始めます。その後、オンライン反復型RLHFの背後にある理論的洞察とアルゴリズムの原則について議論し、詳細な実践的な実装を紹介します。私たちがトレーニングしたLLM、SFR-Iterative-DPO-LLaMA-3-8B-Rは、AlpacaEval-2、Arena-Hard、MT-BenchなどのLLMチャットボットベンチマーク、およびHumanEvalやTruthfulQAなどの学術ベンチマークで印象的な性能を達成しました。教師ありファインチューニング(SFT)と反復型RLHFが、完全にオープンソースのデータセットを使用して最先端の性能を達成できることを示しました。さらに、私たちのモデル、キュレーションされたデータセット、および包括的なステップバイステップのコードガイドブックを公開しています。詳細については、https://github.com/RLHFlow/RLHF-Reward-Modeling および https://github.com/RLHFlow/Online-RLHF を参照してください。
本論文では、50以上の言語でテキストの理解、推論、生成が可能な多言語大規模言語モデルアーキテクチャ「SUTRA」を紹介する。SUTRAの設計は、中核的な概念理解と言語固有の処理を分離する点で独特であり、スケーラブルで効率的な多言語アラインメントと学習を促進する。言語処理と概念処理の両方においてMixture of Expertsフレームワークを採用することで、SUTRAは計算効率と応答性の両方を実証している。広範な評価を通じて、SUTRAは多言語タスクにおけるMassive Multitask Language Understanding(MMLU)ベンチマークで、GPT-3.5やLlama2などの既存モデルを20~30%上回る性能を示した。また、SUTRAモデルはオンラインLLMであり、インターネットからの知識を活用して、多言語能力を維持しつつ、事実に基づいた最新の回答を提供することができる。さらに、そのアーキテクチャが多言語AIの未来に与える広範な影響を探り、世界的にAI技術へのアクセスを民主化し、非英語圏におけるAIの公平性と有用性を向上させる可能性を強調する。我々の研究結果は、SUTRAが多言語モデルの能力における重要なギャップを埋めるだけでなく、AIアプリケーションにおける運用効率とスケーラビリティの新たなベンチマークを確立することを示唆している。
GPT-4のようなモノリシックな大規模言語モデル(LLM)は、現代の生成AIアプリケーションの道を切り開いてきました。しかし、モノリシックなLLMを大規模にトレーニング、提供、維持することは、依然として非常に高コストで困難です。現代のAIアクセラレータにおける計算能力とメモリ容量の不均衡な増加は、メモリの壁を生み出し、AIを展開するための新しい方法を必要としています。エキスパートの合成(CoE)は、トレーニングと提供のコストと複雑さを低減するモジュール型の代替アプローチです。しかし、このアプローチは従来のハードウェアを使用する際に2つの主要な課題を提示します:(1)融合操作がない場合、小さなモデルは演算密度が低く、高い利用率を達成することがより困難になります;(2)多数のモデルをホストすることは、それらを動的に切り替える際に非常に高コストまたは遅くなる可能性があります。 本論文では、CoE、ストリーミングデータフロー、および3層メモリシステムを組み合わせることで、AIのメモリの壁をどのようにスケーリングするかを説明します。150のエキスパートと合計1兆のパラメータを持つCoEシステムであるSamba-CoEについて説明します。Samba-CoEを、エンタープライズ向けの推論およびトレーニングアプリケーションのために共同設計された商用データフローアクセラレータアーキテクチャであるSambaNova SN40L再構成可能データフローユニット(RDU)に展開します。このチップは、オンチップ分散SRAM、オンパッケージHBM、およびオフパッケージDDR DRAMを備えた新しい3層メモリシステムを導入します。専用のRDU間ネットワークにより、複数のソケットにわたるスケールアップとスケールアウトが可能になります。8つのRDUソケットで実行されるさまざまなベンチマークにおいて、非融合ベースラインと比較して2倍から13倍の高速化を実証します。CoE推論展開において、8ソケットRDUノードはマシンのフットプリントを最大19倍削減し、モデル切り替え時間を15倍から31倍高速化し、DGX H100に対して全体で3.7倍、DGX A100に対して6.6倍の高速化を達成することを示します。
大規模モデルにおける最近のブレークスルーは、データ規模、ラベル、モダリティの重要性を浮き彫りにしました。本論文では、MS MARCO Web Searchを紹介します。これは、数百万の実際のクリックされたクエリ-ドキュメントラベルを特徴とする、初の大規模で情報豊富なウェブデータセットです。このデータセットは、現実世界のウェブドキュメントとクエリの分布を忠実に模倣し、さまざまな下流タスクのための豊富な情報を提供し、汎用的なエンドツーエンドニューラルインデクサーモデル、汎用的な埋め込みモデル、大規模言語モデルを用いた次世代情報アクセスシステムなど、さまざまな分野の研究を促進します。MS MARCO Web Searchは、機械学習と情報検索システムの研究分野の両方でイノベーションを求める3つのウェブ検索チャレンジタスクを備えた検索ベンチマークを提供します。大規模で現実的かつ情報豊富なデータ要件を満たす初のデータセットとして、MS MARCO Web SearchはAIとシステム研究の将来の進歩への道を開きます。MS MARCO Web Searchデータセットは、https://github.com/microsoft/MS-MARCO-Web-Search で利用可能です。
マルチモーダル大規模言語モデル(MLLMs)の顕著な進歩は、視覚的コンテキストにおける優れたパフォーマンスにより、大きな注目を集めています。しかし、視覚的な図を実行可能なコードに変換する能力については、十分に評価されていません。この問題に対処するため、我々はMLLMsの公平かつ詳細な評価を目的とした包括的な視覚的コーディングベンチマーク「Plot2Code」を導入します。Plot2Codeでは、公開されているmatplotlibギャラリーから6種類のプロットタイプにわたる132の手作業で選ばれた高品質なmatplotlibプロットを慎重に収集しました。各プロットに対して、そのソースコードとGPT-4によって要約された説明文を提供します。このアプローチにより、Plot2Codeは様々な入力モダリティにわたるMLLMsのコード能力を広範に評価することが可能となります。 さらに、出力コードとレンダリングされた画像の詳細な評価のために、コード通過率、テキストマッチ率、GPT-4Vの総合評価という3つの自動評価指標を提案します。単に合格か不合格かを判断するのではなく、生成された画像と参照画像の間でGPT-4Vを用いて総合的な判断を行います。この方法は、人間の評価と一致することが示されています。評価結果には、プロプライエタリなGPT-4VやGemini-Pro、オープンソースのMini-Geminiなど14のMLLMsの分析が含まれており、Plot2Codeが提示する大きな課題を浮き彫りにしています。Plot2Codeを通じて、既存のMLLMsの多くがテキスト密度の高いプロットの視覚的コーディングに苦戦し、テキスト指示に大きく依存していることが明らかになりました。Plot2Codeによる視覚的コーディングの評価結果が、今後のMLLMsの開発を導くことを期待しています。Plot2Codeに関連するすべてのデータは、https://huggingface.co/datasets/TencentARC/Plot2Code で公開されています。
本レポートでは、CMTEBベンチマークにおける6つのタスクを包括的に評価し、新たな最先端を達成した埋め込みモデルPiccolo2を紹介します。Piccolo2は主に、効率的なマルチタスクハイブリッド損失トレーニング手法を活用し、多様な下流タスクからのテキストデータとラベルを効果的に利用しています。さらに、Piccolo2は埋め込み次元を拡大し、MRLトレーニングを使用してより柔軟なベクトル次元をサポートします。Piccoloモデルの最新情報は、https://huggingface.co/sensenova/ からアクセスできます。
アニメーションロゴは、個人やブランドがオンライン上で自身を表現するための魅力的で普遍的な方法です。これらのロゴを手動で作成するには、相当な芸術的スキルと労力が必要となる場合があります。初心者デザイナーがロゴをアニメーション化するのを支援するため、現在のデザインツールはテンプレートやアニメーションプリセットを提供しています。しかし、これらのソリューションは表現の範囲が限られていることがあります。大規模言語モデル(LLM)は、コンテンツに合わせたアニメーションコードを生成することで、初心者デザイナーがアニメーションロゴを作成するのを支援する可能性を秘めています。本論文では、レイヤードドキュメントを入力として受け取り、視覚的に基づいたプログラム合成を通じてアニメーションロゴを生成するLLMベースのシステム「LogoMotion」を紹介します。キャンバスのHTML表現を作成する技術、主要要素と副次要素を識別する技術、アニメーションコードを合成する技術、およびアニメーションエラーを視覚的にデバッグする技術を導入します。業界標準のツールと比較した結果、LogoMotionはよりコンテンツを意識したアニメーションを生成し、品質においても同等であることがわかりました。最後に、LLMが生成するアニメーションがモーションデザインに与える影響について議論します。
ドメインモデルの開発は、AIプランニングにおいて依然として手作業が必要とされる数少ない領域の一つです。そのため、プランニングをよりアクセスしやすくするために、ドメインモデル生成のプロセスを自動化することが望ましいと考えられます。この目的のために、大規模言語モデル(LLM)が単純なテキスト記述からプランニングドメインモデルを生成できるかどうかを調査します。具体的には、ドメインインスタンスのプランセットを比較することで、LLMが生成したドメインを自動評価するフレームワークを導入します。最後に、7つの大規模言語モデル(コーディングモデルとチャットモデルを含む)を、9つの異なるプランニングドメインと3つのクラスの自然言語ドメイン記述に対して実証分析を行います。その結果、特にパラメータ数が多いLLMは、自然言語記述から正しいプランニングドメインを生成する能力において中程度の熟練度を示すことが明らかになりました。私たちのコードはhttps://github.com/IBM/NL2PDDLで公開されています。