每日精选AI研究论文及翻译
大型语言模型(LLMs)能够以人类水平的流畅度遵循自然语言指令,这表明在医疗保健领域有许多机会,可以减少行政负担并提高护理质量。然而,在医疗保健领域对LLMs进行现实文本生成任务的评估仍然具有挑战性。现有的用于电子健康记录(EHR)数据的问答数据集未能捕捉到临床医生所经历的信息需求复杂性和文档负担。为了解决这些挑战,我们引入了MedAlign,这是一个包含983个EHR数据自然语言指令的基准数据集。MedAlign由15名临床医生(7个专业领域)策划,包括303个指令的临床医生撰写的参考响应,并提供了276个用于指导指令-响应对的纵向EHR。我们使用MedAlign评估了6个通用领域的LLMs,让临床医生对每个LLM的响应准确性和质量进行排名。我们发现高错误率,从35%(GPT-4)到68%(MPT-7B-Instruct)不等,并且将GPT-4的上下文长度从32k减少到2k时,准确率下降了8.3%。最后,我们报告了临床医生排名与自动自然语言生成指标之间的相关性,作为一种无需人工审查即可对LLMs进行排名的方法。我们通过研究数据使用协议提供MedAlign,以便在与临床医生需求和偏好一致的任务上进行LLMs评估。
在负责任的视觉合成中,避免合成特定视觉概念是一项重要挑战。然而,需要在负责任的视觉合成中避免的视觉概念往往是多样的,取决于地区、背景和使用场景。在这项工作中,我们正式提出了一个新任务,即开放词汇负责任视觉合成(ORES),合成模型能够避免禁止的视觉概念,同时允许用户输入任何所需内容。为了解决这个问题,我们提出了一个两阶段干预(TIN)框架。通过引入1)通过大规模语言模型(LLM)进行可学习指导的重写和2)在扩散合成模型上进行提示干预的合成,它可以有效地合成图像,避免任何概念,但尽可能地遵循用户的查询。为了在ORES上进行评估,我们提供了一个公开可用的数据集、基准模型和基准测试。实验结果表明我们的方法在减少图像生成风险方面的有效性。我们的工作突出了LLM在负责任的视觉合成中的潜力。我们的代码和数据集是公开可用的。