每日精選AI研究論文及翻譯
大型語言模型(LLMs)具備以人類水準流暢度遵循自然語言指令的能力,暗示在醫療保健領域有許多機會可以減輕行政負擔並提高護理質量。然而,在現實的醫療文本生成任務中評估LLMs仍然具有挑戰性。現有的用於電子健康記錄(EHR)數據的問答數據集未能捕捉臨床醫師所面臨的信息需求和文檔負擔的複雜性。為應對這些挑戰,我們引入了MedAlign,這是一個包含983條EHR數據的自然語言指令基準數據集。MedAlign由15名臨床醫師(7個專業領域)精心編輯,包括303條指令的臨床醫師撰寫的參考回應,並提供276份長期EHR以鞏固指令-回應對。我們使用MedAlign來評估6個一般領域的LLMs,請臨床醫師對每個LLM的回應準確性和質量進行排名。我們發現高錯誤率,從35%(GPT-4)到68%(MPT-7B-Instruct)不等,並且GPT-4在從32k到2k上下文長度時準確率下降了8.3%。最後,我們報告了臨床醫師排名和自動自然語言生成指標之間的相關性,作為一種無需人工審查即可對LLMs進行排名的方法。我們通過研究數據使用協議提供MedAlign,以便在與臨床醫師需求和偏好對齊的任務上進行LLM評估。
在負責任的視覺合成中,避免合成特定視覺概念是一個重要挑戰。然而,需要避免的負責任視覺合成概念往往因地區、背景和使用情境而有所不同。在這項工作中,我們正式定義了一個新任務,即開放詞彙負責任視覺合成(ORES),在這個任務中,合成模型能夠避免禁止的視覺概念,同時允許用戶輸入任何所需內容。為了應對這個問題,我們提出了一個兩階段干預(TIN)框架。通過引入1)通過大規模語言模型(LLM)進行可學習指導的重寫,以及2)在擴散合成模型上進行提示干預進行合成,它可以有效地合成圖像,避免任何概念,但盡可能地遵循用戶的查詢。為了在ORES上進行評估,我們提供了一個公開可用的數據集、基準模型和基準測試。實驗結果顯示我們的方法在減少圖像生成風險方面的有效性。我們的工作突出了LLM在負責任的視覺合成中的潛力。我們的代碼和數據集是公開可用的。