翻訳付きの日次キュレーションされたAI研究論文
本報告書では、大規模マルチモーダルモデル(LMM)の開発フレームワークであるxGen-MM(別名BLIP-3)を紹介します。このフレームワークは、厳選されたデータセット、トレーニングレシピ、モデルアーキテクチャ、および結果として得られる一連のLMMで構成されています。xGen-MM(xGen-MultiModalの略)は、Salesforceの基盤AIモデルに関するxGenイニシアチブを拡張するものです。私たちのモデルは、単一画像および複数画像のベンチマークを含む様々なタスクにおいて厳密な評価を受けています。事前学習済みのベースモデルは、強力なインコンテキスト学習能力を示し、指示チューニングされたモデルは、同規模のオープンソースLMMの中で競争力のある性能を発揮します。さらに、DPOを用いた安全性チューニングモデルを導入し、幻覚などの有害な行動を軽減し、安全性を向上させることを目指しています。LMM研究のさらなる進展を促進するため、私たちはモデル、厳選された大規模データセット、およびファインチューニングコードベースをオープンソースとして公開します。関連リソースは、上記のプロジェクトページで利用可能になります。
近年の画像および動画生成の研究では、その汎用性とマルチモーダルシステムへの容易な統合可能性から、自己回帰型LLMアーキテクチャが採用されています。言語生成における自己回帰型トレーニングを視覚生成に適用する際の鍵は、離散化——つまり、画像や動画といった連続データを離散トークンとして表現すること——にあります。画像や動画を離散化する一般的な方法には、膨大な長さとなる生のピクセル値をモデル化する方法や、複雑な事前トレーニングを必要とするベクトル量子化があります。本研究では、画像や動画を標準的なコーデック(例:JPEG、AVC/H.264)を用いて保存された圧縮ファイルとして直接モデル化することを提案します。視覚専用の変更を加えずにデフォルトのLlamaアーキテクチャを使用し、JPEGおよびAVC形式の圧縮ファイルのバイトを直接出力するJPEG-LM(および概念実証として動画生成を行うAVC-LM)をゼロから事前トレーニングします。画像生成の評価では、このシンプルで直接的なアプローチが、ピクセルベースのモデル化や洗練されたベクトル量子化のベースラインよりも効果的であることが示されました(本手法ではFIDが31%削減されました)。分析によると、JPEG-LMは、特にロングテールの視覚要素を生成する点でベクトル量子化モデルよりも優れています。全体として、標準的なコーデック表現を使用することで、言語生成と視覚生成の間の障壁を低くし、マルチモーダルな言語/画像/動画LLMの今後の研究を促進できることを示しています。
研究者たちは、強力な汎用エージェントの開発に多大な努力を注いでおり、その中でFoundation Modelsがエージェントシステムのモジュールとして使用されています(例:Chain-of-Thought、Self-Reflection、Toolformer)。しかし、機械学習の歴史は、手動で設計されたソリューションが最終的には学習されたソリューションに置き換えられることを教えてくれます。私たちは、Automated Design of Agentic Systems(ADAS)という新しい研究領域を提唱し、強力なエージェントシステムの設計を自動的に作成することを目指しています。これには、新しい構成要素の発明や、それらを新しい方法で組み合わせることが含まれます。さらに、ADAS内には未開拓でありながら有望なアプローチがあることを示します。このアプローチでは、エージェントをコードで定義し、メタエージェントがより優れたエージェントをコードで自動的に発見することができます。プログラミング言語がチューリング完全であることを考えると、このアプローチは理論的にはあらゆる可能なエージェントシステムを学習することを可能にします。これには、新しいプロンプト、ツールの使用、制御フロー、およびそれらの組み合わせが含まれます。私たちは、このアイデアを実証するために、Meta Agent Searchというシンプルでありながら効果的なアルゴリズムを提示します。このアルゴリズムでは、メタエージェントが過去の発見のアーカイブを基に、興味深い新しいエージェントを反復的にプログラミングします。コーディング、科学、数学など複数のドメインでの広範な実験を通じて、私たちのアルゴリズムが最先端の手動設計エージェントを大幅に上回る新しい設計のエージェントを段階的に発明できることを示します。重要なことに、Meta Agent Searchによって発明されたエージェントは、ドメインやモデルをまたいで転移しても優れた性能を維持するという驚くべき結果を一貫して観察しました。これは、それらの堅牢性と汎用性を示しています。安全に開発すれば、私たちの研究は、人類の利益のためにますます強力なエージェントシステムを自動的に設計するというエキサイティングな新しい研究方向の可能性を示しています。
手術映像のセグメンテーションは、コンピュータ支援手術における重要なタスクであり、手術の質と患者のアウトカムを向上させるために不可欠です。最近、Segment Anything Model 2(SAM2)フレームワークが、画像および映像セグメンテーションにおいて優れた進展を示しています。しかし、SAM2は高解像度画像の処理や手術映像における複雑で長期的な時間的ダイナミクスに対する高い計算要求のため、効率性に課題を抱えています。これらの課題に対処するため、我々はSurgical SAM 2(SurgSAM-2)を導入しました。これは、SAM2を効率的なフレームプルーニング(EFP)メカニズムと組み合わせた先進的なモデルであり、リアルタイムの手術映像セグメンテーションを実現します。EFPメカニズムは、最も情報量の多いフレームを選択的に保持することでメモリバンクを動的に管理し、メモリ使用量と計算コストを削減しながら高いセグメンテーション精度を維持します。我々の広範な実験により、SurgSAM-2が従来のSAM2と比較して効率性とセグメンテーション精度の両方を大幅に向上させることが実証されました。特に、SurgSAM-2はSAM2と比較して3倍のFPSを達成し、低解像度データでのファインチューニング後も最先端の性能を発揮します。これらの進展により、SurgSAM-2は手術映像分析における主要なモデルとして確立され、リソースが制限された環境でのリアルタイム手術映像セグメンテーションを現実的なものとしました。
我々は、少ステップ拡散モデルにおける精密な画像反転と分離可能な画像編集の課題に取り組む。エンコーダベースの反復的反転技術を導入する。この反転ネットワークは、入力画像と前ステップからの再構成画像を条件付けし、次の再構成を入力画像に向けて修正することを可能にする。少ステップ拡散モデルにおいて、分離可能な制御が(自動生成された)詳細なテキストプロンプトを条件付けることで容易に達成できることを示す。反転画像を操作するために、ノイズマップを固定し、テキストプロンプト内の1つの属性を変更(手動またはLLMによる指示ベースの編集を介して)することで、入力画像に類似した新しい画像を生成し、1つの属性のみを変更する。さらに、編集強度を制御し、指示的なテキストプロンプトを受け入れることができる。我々のアプローチは、リアルタイムでの現実的なテキストガイド画像編集を可能にし、反転(1回限りのコスト)に8回の機能評価(NFE)、編集ごとに4回のNFEを必要とする。我々の手法は高速であるだけでなく、最先端の多ステップ拡散編集技術を大幅に上回る性能を示す。
大規模言語モデル(LLM)の訓練には多大なデータ関連コストがかかるため、最適化されたデータ順序付けと選択を通じたデータ効率の良い訓練手法の開発が求められています。人間の学習戦略に着想を得たカリキュラム学習などの手法は、一般的な人間の学習慣習に従ってデータを整理することで効率的な訓練の可能性を提供します。カリキュラム学習を用いたファインチューニングが自然言語理解タスクにおけるLLMの性能を向上させるという証拠があるにもかかわらず、その有効性は通常単一のモデルを用いて評価されています。本研究では、医療質問応答タスクにおいて人間が定義したラベルと自動生成されたラベルを使用し、複数のLLMにわたってカリキュラムベースおよび非カリキュラムベースの学習戦略を評価することで、先行研究を拡張します。結果は、人間の学習戦略に着想を得た手法を用いたファインチューニングがLLMに中程度の影響を与え、モデルごとに最大1.77%、データセットごとに最大1.81%の精度向上をもたらすことを示しています。重要なことに、これらの戦略の有効性は異なるモデルとデータセットの組み合わせによって大きく異なり、特定の人間の学習戦略に着想を得た手法の利点が一般化しないことを強調しています。さらに、LLMが定義した質問の難易度を用いたカリキュラム学習が人間が定義した難易度を上回るという証拠が見つかり、最適なカリキュラム設計のためにモデル生成の指標を使用する可能性が示唆されています。
オフライン強化学習(Offline RL)アルゴリズムは、コストがかかるまたは危険を伴う現実世界での探索を必要とせず、事前に収集された大規模なデータセットを活用できるデータ駆動型のRL手法を実現する可能性を秘めています。これにより、現実世界での応用が促進されるだけでなく、RL研究の標準化が進むことが期待されます。さらに、オフラインRL手法は、オンラインでのファインチューニングのための効果的な初期化を提供し、探索に関する課題を克服するのに役立ちます。しかし、オフラインRLアルゴリズムの進捗を評価するためには、現実世界のタスクの特性を捉え、さまざまな難易度のタスクを提供し、ドメインのパラメータ(例:時間軸の長さ、報酬の希薄性)やデータのパラメータ(例:狭いデモンストレーションデータや広範な探索データ)に関する多様な課題をカバーする効果的で挑戦的なベンチマークが必要です。近年、より単純なベンチマークタスクによってオフラインRLの進展が大きく促進されてきましたが、最も広く使用されているデータセットは性能の飽和が進んでおり、現実的なタスクの特性を反映できていない可能性があります。私たちは、現実世界のロボットシステムをモデル化したロボット操作および移動環境のシミュレーションに焦点を当て、スクリプトデータ、人間のテレオペレーターによって収集されたプレイスタイルデータ、その他のデータソースを含む多様なデータソースを網羅した新しいオフラインRLベンチマークを提案します。提案するベンチマークは、状態ベースおよび画像ベースのドメインをカバーし、オフラインRLとオンラインファインチューニングの評価をサポートします。一部のタスクは、事前学習とファインチューニングの両方を必要とするように特別に設計されています。私たちの提案するベンチマークが、オフラインRLおよびファインチューニングアルゴリズムのさらなる進展に貢献することを願っています。コード、例、タスク、データを含むウェブサイトはhttps://sites.google.com/view/d5rl/で公開されています。