ByJunying Chen, Ruyi Ouyang, Anningzhe Gao, Shunian Chen, Guiming Hardy Chen, Xidong Wang, Ruifei Zhang, Zhenyang Cai, Ke Ji, Guangjun Yu, Xiang Wan, Benyou Wang
63
9
GPT-4Vなどのマルチモーダル大規模言語モデル(MLLM)の急速な発展により、重要な進歩がもたらされています。しかし、これらのモデルは、データプライバシーの懸念や高額なアノテーションコストに起因する医療視覚テキストデータの量と質の制約により、医療マルチモーダル能力において依然として課題を抱えています。先駆的なアプローチでは、PubMedの大規模で匿名化された医療画像テキストペアを利用してこれらの制約に対処していますが、データに内在するノイズのために十分な成果を上げられていません。この問題に対処するため、我々はPubMedから医療画像テキストペアを精選し、MLLM(GPT-4V)を「非盲検」状態で使用してデータのノイズ除去と再フォーマットを行い、130万の医療VQAサンプルを含むPubMedVisionデータセットを構築しました。我々の検証により以下のことが明らかになりました:(1)PubMedVisionは、現在のMLLMの医療マルチモーダル能力を大幅に向上させ、MMMU Health & Medicineトラックを含むベンチマークで顕著な改善を示すこと、(2)医療専門家による手動チェックと実証結果により、他のデータ構築方法と比較して我々のデータセットの優れた品質が確認されたこと。PubMedVisionを使用して、我々は34Bの医療MLLM「HuatuoGPT-Vision」をトレーニングし、オープンソースのMLLMの中で医療マルチモーダルシナリオにおいて優れた性能を示しました。
ByXiang Li, Cristina Mata, Jongwoo Park, Kumara Kahatapitiya, Yoo Sung Jang, Jinghuan Shang, Kanchana Ranasinghe, Ryan Burgert, Mu Cai, Yong Jae Lee, Michael S. Ryoo
18
1
広範な世界知識と強力な推論能力を備えた大規模言語モデル(LLM)は、会話形式の指示-応答ペアとしてタスクを定式化することで、様々な領域にわたる多様なタスクに対処できます。本論文では、LLaRA: Large Language and Robotics Assistantを提案します。これは、ロボットの行動ポリシーを会話として定式化し、ポリシー学習を補完する補助データを用いて訓練することで、改善された応答を提供するフレームワークです。視覚入力を備えたLLM、すなわち視覚言語モデル(VLM)は、状態情報を視覚-テキストプロンプトとして処理し、最適なポリシー決定をテキストで生成する能力を持っています。このような行動ポリシーVLMを訓練するために、まず既存の行動クローニングデータから多様で高品質なロボティクス指示データを生成する自動化パイプラインを導入します。ロボティクスタスクに特化した会話形式の定式化に基づいて、このデータセットコレクションでファインチューニングされたVLMは、意味のあるロボット行動ポリシー決定を生成できます。複数のシミュレーション環境および実世界環境での実験により、提案するLLaRAフレームワークの最先端の性能が実証されました。コード、データセット、および事前訓練済みモデルはhttps://github.com/LostXine/LLaRAで公開されています。
ByYuxuan Zhang, Tianheng Cheng, Rui Hu, ei Liu, Heng Liu, Longjin Ran, Xiaoxin Chen, Wenyu Liu, Xinggang Wang
9
3
Segment Anything Model (SAM)は、視覚的プロンプトを用いた優れたインタラクティブセグメンテーション能力で広く注目を集めているが、テキストプロンプトのさらなる探求が不足している。本論文では、参照表現セグメンテーションのためにSAMを適応させるのに適したテキストプロンプトエンコーダ(例:CLIPやLLM)を実証的に調査し、Early Vision-language Fusion-based SAM (EVF-SAM)を紹介する。EVF-SAMは、マルチモーダルプロンプト(画像とテキスト)を活用し、参照プロンプトを生成するための事前学習済み視覚言語モデルとセグメンテーションのためのSAMモデルで構成される、シンプルでありながら効果的な参照セグメンテーション手法である。驚くべきことに、我々は以下の点を観察した:(1) マルチモーダルプロンプトと、(2) 早期融合を採用した視覚言語モデル(例:BEIT-3)が、正確な参照セグメンテーションのためにSAMをプロンプトするのに有益である。実験結果は、BEIT-3に基づく提案手法EVF-SAMが、RefCOCO/+/gにおける参照表現セグメンテーションで最先端の性能を達成し、早期視覚言語融合を用いてSAMをプロンプトすることの優位性を示している。さらに、提案されたEVF-SAMは1.32Bのパラメータを持ちながら、大規模マルチモーダルモデルに基づく従来のSAM手法と比較して約82%のパラメータを削減しつつ、著しく高い性能を達成している。
ByChih-Hsuan Yang, Benjamin Feuer, Zaki Jubery, Zi K. Deng, Andre Nakkab, Md Zahid Hasan, Shivani Chiranjeevi, Kelly Marshall, Nirmal Baishnab, Asheesh K Singh, Arti Singh, Soumik Sarkar, Nirav Merchant, Chinmay Hegde, Baskar Ganapathysubramanian
ByYuheng Zhang, Dian Yu, Baolin Peng, Linfeng Song, Ye Tian, Mingyue Huo, Nan Jiang, Haitao Mi, Dong Yu
7
1
人間のフィードバックを用いた強化学習(RLHF)は、大規模言語モデル(LLM)を人間の選好に適合させることに大きな成功を収めてきました。現在主流のRLHFアプローチは、報酬ベースであり、Bradley-Terry(BT)モデルの仮定に従っていますが、これは人間の選好の複雑さを完全には捉えられない可能性があります。本論文では、一般的な選好フレームワークの下でRLHFを探求し、ゲーム理論的視点からアプローチします。具体的には、この問題を2プレイヤーゲームとして定式化し、新しいアルゴリズムである反復ナッシュ政策最適化(INPO)を提案します。鍵となるアイデアは、政策をノーリグレット学習を通じて自己対戦させることで、ナッシュ政策を近似することです。従来の方法とは異なり、INPOは個々の応答に対する期待勝率を推定する必要性を回避し、これにより通常高い計算コストやアノテーションコストがかかる問題を解決します。代わりに、選好データセット上で直接最小化される新しい損失目的関数を導入します。我々はこのアプローチに対する理論的分析を提供し、様々な代表的なベンチマークでの実験を通じてその有効性を実証します。LLaMA-3-8BベースのSFTモデルを用いて、INPOはAlpacaEval 2.0で41.5%の長さ制御勝率、Arena-Hardで38.3%の勝率を達成し、BTモデル仮定下での最新の反復アルゴリズム[Dong et al., 2024]を大幅に上回る結果を示しました。さらに、アブレーションスタディでは、応答長制御のためのKL正則化の効果が強調されています。