翻訳付きの日次キュレーションされたAI研究論文
我々は、大規模言語モデル(LLM)内の多様な視点を活用して多様な合成データを生成する、新しいパーソナ駆動型データ合成手法を提案する。この手法を大規模に活用するために、ウェブデータから自動的にキュレーションされた10億の多様なパーソナを集めた「Persona Hub」を導入する。これらの10億のパーソナ(世界総人口の約13%)は、世界知識の分散キャリアとして機能し、LLM内に封じ込められたほぼすべての視点にアクセスすることができる。これにより、様々なシナリオにおける大規模な多様な合成データの生成が容易になる。Persona Hubの使用例として、高品質な数学的・論理的推論問題、指示(ユーザープロンプト)、知識豊富なテキスト、ゲームNPC、およびツール(関数)の大規模合成を紹介し、パーソナ駆動型データ合成が汎用的でスケーラブル、柔軟性があり、使いやすいことを実証する。これにより、合成データの作成と実践への応用においてパラダイムシフトを引き起こす可能性があり、LLMの研究開発に深い影響を与えるかもしれない。
GPT-4Vなどのマルチモーダル大規模言語モデル(MLLM)の急速な発展により、重要な進歩がもたらされています。しかし、これらのモデルは、データプライバシーの懸念や高額なアノテーションコストに起因する医療視覚テキストデータの量と質の制約により、医療マルチモーダル能力において依然として課題を抱えています。先駆的なアプローチでは、PubMedの大規模で匿名化された医療画像テキストペアを利用してこれらの制約に対処していますが、データに内在するノイズのために十分な成果を上げられていません。この問題に対処するため、我々はPubMedから医療画像テキストペアを精選し、MLLM(GPT-4V)を「非盲検」状態で使用してデータのノイズ除去と再フォーマットを行い、130万の医療VQAサンプルを含むPubMedVisionデータセットを構築しました。我々の検証により以下のことが明らかになりました:(1)PubMedVisionは、現在のMLLMの医療マルチモーダル能力を大幅に向上させ、MMMU Health & Medicineトラックを含むベンチマークで顕著な改善を示すこと、(2)医療専門家による手動チェックと実証結果により、他のデータ構築方法と比較して我々のデータセットの優れた品質が確認されたこと。PubMedVisionを使用して、我々は34Bの医療MLLM「HuatuoGPT-Vision」をトレーニングし、オープンソースのMLLMの中で医療マルチモーダルシナリオにおいて優れた性能を示しました。
大規模言語モデル(LLM)の分野において、知識蒸留(Knowledge Distillation, KD)は、教師モデルから学生モデルへ能力を転移するための重要な技術です。しかし、既存のKD手法は、LLMの蒸留において効率性や従来のKLダイバージェンスの測定能力の不足といった制約と課題に直面しています。LLMが暗黙的な報酬関数として機能し得ることが示されており、これをKLダイバージェンスの補完として定義します。本研究では、LLM向けの直接選好知識蒸留(Direct Preference Knowledge Distillation, DPKD)を提案します。DPKDは、分布ダイバージェンスを用いて選好損失と暗黙的報酬関数を表現します。LLMのKDを2段階に再定式化します。まず、暗黙的報酬と逆KLダイバージェンスからなる目的関数を最適化し、次に、教師出力が学生出力よりも選好される確率を向上させます。120Mから13Bまでのパラメータを持つLLMを用いて、様々なデータセットで実験と分析を行い、DPKDアプローチの広範な適用性と有効性を実証しました。同時に、暗黙的報酬と出力選好がKDにおいて有効であることを実験と理論分析を通じて証明しました。DPKD手法は、出力応答の精度と完全一致率の両方においてベースライン手法を上回りました。コードとデータはhttps://aka.ms/dpkdで公開されています。
広範な世界知識と強力な推論能力を備えた大規模言語モデル(LLM)は、会話形式の指示-応答ペアとしてタスクを定式化することで、様々な領域にわたる多様なタスクに対処できます。本論文では、LLaRA: Large Language and Robotics Assistantを提案します。これは、ロボットの行動ポリシーを会話として定式化し、ポリシー学習を補完する補助データを用いて訓練することで、改善された応答を提供するフレームワークです。視覚入力を備えたLLM、すなわち視覚言語モデル(VLM)は、状態情報を視覚-テキストプロンプトとして処理し、最適なポリシー決定をテキストで生成する能力を持っています。このような行動ポリシーVLMを訓練するために、まず既存の行動クローニングデータから多様で高品質なロボティクス指示データを生成する自動化パイプラインを導入します。ロボティクスタスクに特化した会話形式の定式化に基づいて、このデータセットコレクションでファインチューニングされたVLMは、意味のあるロボット行動ポリシー決定を生成できます。複数のシミュレーション環境および実世界環境での実験により、提案するLLaRAフレームワークの最先端の性能が実証されました。コード、データセット、および事前訓練済みモデルはhttps://github.com/LostXine/LLaRAで公開されています。
最近、3Dガウシアンスプラッティング(3D-GS)は、実世界のシーンの再構築とレンダリングにおいて大きな成功を収めています。この高品質なレンダリングを生成タスクに転送するために、一連の研究がテキストから3Dガウシアンアセットを生成しようと試みています。しかし、生成されたアセットは再構築タスクと同じ品質に達していません。生成プロセスが不確定性を引き起こすため、ガウシアンが制御なく成長する傾向があることが観察されています。生成品質を大幅に向上させることを目指し、我々はGaussianDreamerProという新しいフレームワークを提案します。主なアイデアは、ガウシアンを合理的なジオメトリにバインドし、それが生成プロセス全体にわたって進化することです。フレームワークの異なる段階に沿って、ジオメトリと外観の両方が徐々に豊かになります。最終的な出力アセットは、メッシュにバインドされた3Dガウシアンで構成され、以前の方法と比較して大幅に詳細と品質が向上しています。特に、生成されたアセットは、アニメーション、合成、シミュレーションなどの下流の操作パイプラインにシームレスに統合することができ、幅広いアプリケーションでの可能性を大いに促進します。デモはhttps://taoranyi.com/gaussiandreamerpro/で利用可能です。
Segment Anything Model (SAM)は、視覚的プロンプトを用いた優れたインタラクティブセグメンテーション能力で広く注目を集めているが、テキストプロンプトのさらなる探求が不足している。本論文では、参照表現セグメンテーションのためにSAMを適応させるのに適したテキストプロンプトエンコーダ(例:CLIPやLLM)を実証的に調査し、Early Vision-language Fusion-based SAM (EVF-SAM)を紹介する。EVF-SAMは、マルチモーダルプロンプト(画像とテキスト)を活用し、参照プロンプトを生成するための事前学習済み視覚言語モデルとセグメンテーションのためのSAMモデルで構成される、シンプルでありながら効果的な参照セグメンテーション手法である。驚くべきことに、我々は以下の点を観察した:(1) マルチモーダルプロンプトと、(2) 早期融合を採用した視覚言語モデル(例:BEIT-3)が、正確な参照セグメンテーションのためにSAMをプロンプトするのに有益である。実験結果は、BEIT-3に基づく提案手法EVF-SAMが、RefCOCO/+/gにおける参照表現セグメンテーションで最先端の性能を達成し、早期視覚言語融合を用いてSAMをプロンプトすることの優位性を示している。さらに、提案されたEVF-SAMは1.32Bのパラメータを持ちながら、大規模マルチモーダルモデルに基づく従来のSAM手法と比較して約82%のパラメータを削減しつつ、著しく高い性能を達成している。
大規模言語モデルの最近の進展は、ML/AI開発を変革し、Retrieval-Augmented Generation(RAG)システムのためのAutoML原則の再評価を必要としています。RAGにおけるハイパーパラメータ最適化とオンライン適応の課題に対処するため、我々はAutoRAG-HPフレームワークを提案します。このフレームワークは、ハイパーパラメータチューニングをオンライン多腕バンディット(MAB)問題として定式化し、大規模な探索空間を効率的に探索するための新しい二段階階層型MAB(Hier-MAB)手法を導入します。ALCE-ASQAおよびNatural Questionsデータセットを使用して、トップk検索ドキュメント、プロンプト圧縮率、埋め込み手法などのハイパーパラメータをチューニングする広範な実験を行いました。3つのハイパーパラメータを同時に最適化した評価結果から、探索空間に顕著な勾配があるシナリオでは、MABベースのオンライン学習手法が、グリッドサーチアプローチに必要なLLM API呼び出しのわずか約20%を使用して、Recall@5を約0.8達成できることが示されました。さらに、提案されたHier-MABアプローチは、より困難な最適化シナリオにおいて他のベースラインを上回りました。コードはhttps://aka.ms/autoragで公開されます。
深層強化学習(RL)手法のスケールアップは大きな課題となっています。生成モデリングの進展に続き、モデルベースRLは有力な候補として位置づけられています。最近のシーケンスモデリングの進歩により、効果的なトランスフォーマーベースの世界モデルが開発されましたが、環境を正確にシミュレートするために必要な長いトークンシーケンスのため、重い計算コストが伴います。本研究では、Delta-IRISという新しいエージェントを提案します。このエージェントの世界モデルアーキテクチャは、時間ステップ間の確率的デルタをエンコードする離散オートエンコーダと、連続トークンを用いて現在の世界の状態を要約し未来のデルタを予測する自己回帰型トランスフォーマーで構成されています。Crafterベンチマークにおいて、Delta-IRISは複数のフレーム予算で新たな最高性能を達成し、従来のアテンションベースのアプローチよりも一桁高速に学習することができました。私たちはコードとモデルをhttps://github.com/vmicheli/delta-irisで公開しています。
私たちは、生物多様性アプリケーションのためのAIを進化させるために設計された、最大規模の公開データセット「Arboretum」を紹介します。このデータセットは、iNaturalistコミュニティサイエンスプラットフォームからキュレーションされ、正確性を確保するためにドメインエキスパートによって検証されたもので、1億3460万枚の画像を含み、既存のデータセットを規模において一桁上回っています。このデータセットは、鳥類(Aves)、クモ/ダニ/ダニ類(Arachnida)、昆虫類(Insecta)、植物類(Plantae)、菌類/キノコ類(Fungi)、貝類(Mollusca)、ヘビ/トカゲ類(Reptilia)など、多様な種の画像と言語のペアデータを網羅しており、生物多様性評価や農業研究のためのマルチモーダル視覚言語AIモデルにとって貴重なリソースとなっています。各画像は、学名、分類学的詳細、および一般名で注釈付けされており、AIモデルのトレーニングの堅牢性を高めています。 私たちは、4000万枚のキャプション付き画像のサブセットを使用してトレーニングされた一連のCLIPモデルをリリースすることで、Arboretumの価値を示します。厳密な評価のためのいくつかの新しいベンチマークを導入し、ゼロショット学習の精度、ライフステージ、希少種、混同しやすい種、および分類階層のさまざまなレベルにわたる評価を報告します。 私たちは、Arboretumが、害虫駆除戦略、作物モニタリング、世界的な生物多様性評価、環境保護に至るまでのさまざまなデジタルツールを可能にするAIモデルの開発を促進することを期待しています。これらの進展は、食料安全保障の確保、生態系の保全、気候変動の影響の緩和にとって重要です。Arboretumは公開されており、容易にアクセス可能で、すぐに使用できる状態です。 データ、モデル、コードへのリンクについては、https://baskargroup.github.io/Arboretum/{プロジェクトウェブサイト}をご覧ください。
人間のフィードバックを用いた強化学習(RLHF)は、大規模言語モデル(LLM)を人間の選好に適合させることに大きな成功を収めてきました。現在主流のRLHFアプローチは、報酬ベースであり、Bradley-Terry(BT)モデルの仮定に従っていますが、これは人間の選好の複雑さを完全には捉えられない可能性があります。本論文では、一般的な選好フレームワークの下でRLHFを探求し、ゲーム理論的視点からアプローチします。具体的には、この問題を2プレイヤーゲームとして定式化し、新しいアルゴリズムである反復ナッシュ政策最適化(INPO)を提案します。鍵となるアイデアは、政策をノーリグレット学習を通じて自己対戦させることで、ナッシュ政策を近似することです。従来の方法とは異なり、INPOは個々の応答に対する期待勝率を推定する必要性を回避し、これにより通常高い計算コストやアノテーションコストがかかる問題を解決します。代わりに、選好データセット上で直接最小化される新しい損失目的関数を導入します。我々はこのアプローチに対する理論的分析を提供し、様々な代表的なベンチマークでの実験を通じてその有効性を実証します。LLaMA-3-8BベースのSFTモデルを用いて、INPOはAlpacaEval 2.0で41.5%の長さ制御勝率、Arena-Hardで38.3%の勝率を達成し、BTモデル仮定下での最新の反復アルゴリズム[Dong et al., 2024]を大幅に上回る結果を示しました。さらに、アブレーションスタディでは、応答長制御のためのKL正則化の効果が強調されています。
本論文では、AIモデルによって生成された医療報告書の品質を評価するための新しいエンティティ認識指標「Radiological Report (Text) Evaluation (RaTEScore)」を提案する。RaTEScoreは、診断結果や解剖学的詳細などの重要な医療エンティティを重視し、複雑な医学的同義語に対して頑健であり、否定表現に対して敏感である。技術的には、包括的な医療固有表現認識(NER)データセット「RaTE-NER」を開発し、この目的のために特化したNERモデルを訓練した。このモデルにより、複雑な放射線学的報告書を構成する医療エンティティに分解することが可能となる。指標自体は、言語モデルから得られたエンティティ埋め込みの類似性を、そのタイプと臨床的意義に基づいて比較することで導出される。評価結果は、RaTEScoreが既存の指標よりも人間の選好に近いことを示しており、これは確立された公開ベンチマークと新たに提案したRaTE-Evalベンチマークの両方で検証されている。