翻訳付きの日次キュレーションされたAI研究論文
ここ数ヶ月、大規模言語モデル(LLM)を強化し、人間のユーザーからのクエリに応答するだけでなく、目的指向の多段階タスクを自律的に実行できる自律型言語エージェントへと進化させる新たな強力なトレンドが出現しています。しかし、既存の言語エージェントの多くは、環境固有の報酬を用いて最適化されていません。一部のエージェントは言語フィードバックを通じて反復的な改善を可能にしていますが、報酬からの勾配ベースの学習と互換性のある方法で推論や計画を行うことはできません。本論文では、政策勾配を通じて環境フィードバックから言語エージェントのプロンプトを自動的に調整する回顧モデルを学習することで、大規模言語エージェントを強化するための原則に基づいたフレームワークを紹介します。具体的には、提案するエージェントアーキテクチャは、複数の環境とタスクにわたる報酬から学習し、事前学習済みの言語モデルを微調整することで、過去の失敗試行の根本原因を要約し、行動計画を提案する言語エージェントのプロンプトを洗練させます。様々なタスクにおける実験結果は、言語エージェントが時間とともに改善し、提案手法が環境からの勾配を適切に活用しないベースラインを大幅に上回ることを示しています。これは、政策勾配最適化を用いて言語エージェントを改善することが有望であり、我々の研究がその先駆けの一つであると考えられることを示しています。このアプローチは、エージェントアーキテクチャ内の他のモデルを最適化し、エージェントのパフォーマンスを時間とともに向上させるためにも適用可能です。
我々は、複雑なマルチモーダルタスクにおいて大規模マルチモーダルモデル(LMM)を評価するベンチマークMM-Vetを提案します。最近のLMMは、黒板に書かれた数学問題を解いたり、ニュース画像の出来事や有名人について推論したり、視覚的なジョークを説明したりするなど、さまざまな興味深い能力を示しています。モデルの急速な進歩は、評価ベンチマークの開発に課題を突きつけています。問題点は以下の通りです:(1)複雑なマルチモーダルタスクを体系的に構造化し評価する方法、(2)質問と回答のタイプを跨いで適切に機能する評価指標の設計方法、(3)単純な性能ランキングを超えたモデルの洞察を提供する方法です。これらを踏まえ、我々はMM-Vetを提示します。MM-Vetは、複雑なタスクを解決する興味深い能力が、異なるコア視覚言語(VL)能力を統合できる汎用モデルによって達成されるという洞察に基づいて設計されています。MM-Vetは6つのコアVL能力を定義し、それらの組み合わせから導出される16の統合を検証します。評価指標については、オープンエンドの出力を評価するためのLLMベースの評価器を提案します。この評価器は、異なる質問タイプや回答スタイルを跨いで評価を可能にし、統一されたスコアリング指標を提供します。我々は代表的なLMMをMM-Vetで評価し、異なるLMMシステムパラダイムやモデルの能力に関する洞察を提供します。コードとデータはhttps://github.com/yuweihao/MM-Vetで公開されています。
オープンボキャブラリセグメンテーションは、オープンなカテゴリセットから物体をセグメント化し認識するという難しい課題です。この課題に対処する一つの方法は、CLIPのようなマルチモーダルモデルを活用し、画像とテキストの特徴を共有埋め込み空間で提供することで、クローズドボキャブラリとオープンボキャブラリ認識のギャップを埋めることです。したがって、既存の手法では、入力がまずマスク生成器を通り、その後予測されたマスクと共にCLIPモデルを通るという二段階のフレームワークを採用することが多いです。このプロセスでは、画像から複数回特徴を抽出する必要があり、非効率で非効果的です。これに対して、我々は共有のFrozen Convolutional CLIPバックボーンを使用して全てを一段階のフレームワークに統合することを提案します。これにより、現在の二段階パイプラインを大幅に簡素化するだけでなく、精度とコストのトレードオフを著しく向上させることができます。提案するFC-CLIPは、以下の観察から恩恵を受けています:凍結されたCLIPバックボーンはオープンボキャブラリ分類の能力を維持し、強力なマスク生成器としても機能し、畳み込みCLIPはコントラスティブな画像-テキスト事前学習で使用された解像度よりも大きな入力解像度にうまく一般化します。COCOパノプティックデータのみで訓練し、ゼロショット方式でテストした場合、FC-CLIPはADE20Kで26.8 PQ、16.8 AP、34.1 mIoU、Mapillary Vistasで18.2 PQ、27.9 mIoU、Cityscapesで44.0 PQ、26.8 AP、56.2 mIoUを達成し、ADE20Kでは+4.2 PQ、+2.4 AP、+4.2 mIoU、Mapillary Vistasでは+4.0 PQ、Cityscapesでは+20.1 PQと、従来の技術を上回りました。さらに、FC-CLIPの訓練とテスト時間は、同じ従来技術よりも7.5倍と6.6倍大幅に高速で、パラメータ数も5.9倍少ないです。FC-CLIPはまた、様々なオープンボキャブラリセマンティックセグメンテーションデータセットで新たな最先端の性能を確立しました。コードはhttps://github.com/bytedance/fc-clipにあります。
臨床試験マッチングは、医療提供と発見における重要なプロセスである。実際には、膨大な非構造化データとスケーラビリティのない手動処理に悩まされている。本論文では、大規模言語モデル(LLMs)を用いた臨床試験マッチングのスケーリングについて、腫瘍学を焦点領域として体系的に研究する。本研究は、米国の大規模医療ネットワークでテスト展開中の臨床試験マッチングシステムに基づいている。初期の結果は有望であり、GPT-4のような最先端のLLMsは、臨床試験の詳細な適格基準を構造化し、複雑なマッチングロジック(例:ネストされたAND/OR/NOT)を抽出することができる。まだ完璧とは言えないものの、LLMsは従来の強力なベースラインを大幅に上回り、人間をループに含めた患者-試験候補のトリアージを支援する予備的なソリューションとして機能する可能性がある。また、本研究は、LLMsをエンドツーエンドの臨床試験マッチングに適用する際の重要な成長領域、特にコンテキストの制限と精度、特に縦断的な医療記録からの患者情報の構造化についても明らかにしている。
生体模倣型の器用なロボットハンドは、人間が行う多くのタスクを再現し、汎用的な操作プラットフォームとしての地位を獲得する可能性を秘めています。近年の強化学習(RL)フレームワークの進展により、四足歩行や器用な操作タスクにおいて顕著な性能が達成されています。GPUベースの高度に並列化されたシミュレーション環境と組み合わせることで、数千台のロボットを並列にシミュレート可能となり、RLベースのコントローラはよりスケーラブルで扱いやすいものになりました。しかし、RLで訓練されたポリシーを現実世界に適用するためには、物理的なアクチュエータやセンサーと連携可能なポリシーを出力する訓練フレームワークと、アクセス可能な材料で製造可能でありながら、インタラクティブなポリシーを実行するのに十分な堅牢性を持つハードウェアプラットフォームが必要です。本研究では、腱駆動型の生体模倣ハンド「Faive Hand」とそのシステムアーキテクチャを紹介します。このハンドは、腱駆動型のローリングコンタクトジョイントを使用し、3Dプリント可能で堅牢な高自由度ハンド設計を実現しています。ハンドの各要素をモデル化し、GPUシミュレーション環境に統合してRLを用いてポリシーを訓練し、器用な手内球体回転スキルを物理ロボットハンドにゼロショット転移させることに成功しました。
我々は、Compartmentalized Diffusion Models(CDM)を提案する。これは、異なるデータソースに対して個別の拡散モデル(またはプロンプト)を訓練し、推論時にそれらを任意に組み合わせる手法である。個々のモデルは、独立して、異なるタイミングで、異なる分布やドメインで訓練することができ、後で組み合わせることで、全てのデータを同時に訓練した理想的なモデルに匹敵する性能を達成できる。さらに、各モデルは訓練中に曝露されたデータのサブセットに関する情報のみを含むため、いくつかの形式の訓練データ保護が可能となる。特に、CDMは大規模拡散モデルにおいて選択的忘却と継続学習の両方を可能にする初めての手法であり、ユーザーのアクセス権に基づいてカスタマイズされたモデルを提供することも可能にする。CDMはまた、特定のサンプルを生成する際のデータサブセットの重要性を決定することも可能にする。