翻訳付きの日次キュレーションされたAI研究論文
大規模言語モデル(LLM)が人間レベルの流暢さで自然言語の指示に従う能力は、医療分野において事務負担を軽減し、ケアの質を向上させる多くの機会を示唆しています。しかし、医療における現実的なテキスト生成タスクでLLMを評価することは依然として困難です。電子健康記録(EHR)データのための既存の質問応答データセットは、臨床医が経験する情報ニーズと文書化負担の複雑さを捉えられていません。これらの課題に対処するため、我々は983の自然言語指示を含むベンチマークデータセット「MedAlign」を導入しました。MedAlignは15名の臨床医(7つの専門分野)によってキュレーションされ、303の指示に対する臨床医が作成した参照応答を含み、指示と応答のペアを基盤とするための276の縦断的EHRを提供します。我々はMedAlignを使用して6つの汎用ドメインLLMを評価し、臨床医が各LLMの応答の正確性と品質をランク付けしました。その結果、エラー率はGPT-4の35%からMPT-7B-Instructの68%まで幅広く、GPT-4ではコンテキスト長が32kから2kに減少すると精度が8.3%低下することがわかりました。最後に、臨床医のランキングと自動化された自然言語生成メトリクスとの相関を報告し、人間のレビューなしでLLMをランク付けする方法を示します。我々はMedAlignを研究データ使用契約の下で公開し、臨床医のニーズと嗜好に沿ったタスクでLLMを評価できるようにしました。
責任ある視覚的合成において、特定の視覚概念を合成しないようにすることは重要な課題です。しかし、責任ある視覚的合成のために避けるべき視覚概念は、地域、文脈、使用シナリオによって多様である傾向があります。本研究では、Open-vocabulary Responsible Visual Synthesis (ORES)という新しいタスクを定式化します。このタスクでは、合成モデルが禁止された視覚概念を避けつつ、ユーザーが任意の内容を入力できるようにします。この問題に対処するため、Two-stage Intervention (TIN)フレームワークを提案します。1) 大規模言語モデル(LLM)を用いた学習可能な指示による書き換え、2) 拡散合成モデルに対するプロンプト介入による合成を導入することで、任意の概念を避けつつ、可能な限りユーザーのクエリに従った画像を効果的に合成できます。ORESを評価するため、公開データセット、ベースラインモデル、ベンチマークを提供します。実験結果は、画像生成のリスクを低減する当手法の有効性を示しています。本研究は、責任ある視覚的合成におけるLLMの可能性を強調します。コードとデータセットは公開されています。