每日精选AI研究论文及翻译
最近,将强大的专有大型语言模型(LLM)(例如GPT-4)用作长篇回复的评估器已成为事实上的标准。然而,对于有大规模评估任务和自定义标准考量的从业者(例如,儿童可读性),使用专有LLM作为评估器是不可靠的,因为其闭源性质、不受控的版本控制和高昂的成本。在这项工作中,我们提出了Prometheus,这是一个完全开源的LLM,当配备适当的参考材料(参考答案、评分标准)时,其评估能力与GPT-4相媲美。我们首先构建了反馈收集,这是一个新的数据集,包括1K个细粒度评分标准、20K个指导说明以及由GPT-4生成的100K个回复和语言反馈。利用反馈收集,我们训练了Prometheus,一个13B的评估器LLM,可以根据用户提供的自定义评分标准评估任何给定的长篇文本。实验结果显示,当使用45个自定义评分标准进行评估时,Prometheus与人类评估者的皮尔逊相关系数为0.897,与GPT-4(0.882)相当,并且远远优于ChatGPT(0.392)。此外,使用1222个自定义评分标准在四个基准(MT Bench、Vicuna Bench、Feedback Bench、Flask Eval)上与GPT-4进行相关性测量显示出类似的趋势,增强了Prometheus作为评估器LLM的能力。最后,与明确针对人类偏好数据集进行训练的开源奖励模型相比,Prometheus在两个人类偏好基准(HHH Alignment和MT Bench Human Judgment)上实现了最高的准确性,突显了其作为通用奖励模型的潜力。我们在https://github.com/kaistAI/Prometheus 开源了我们的代码、数据集和模型。
Plan-and-Write是长篇叙事文本生成中常见的分层方法,首先创建计划以指导叙事写作。遵循这一方法,几项研究依赖于简单地提示大型语言模型进行规划,这通常会产生次优结果。在本文中,我们提出了一种名为Evaluation-guided Iterative Plan Extraction for long-form narrative text generation(EIPE-text)的新框架,该框架从叙事语料库中提取计划,并利用提取的计划构建更好的规划器。EIPE-text包括三个阶段:计划提取、学习和推理。在计划提取阶段,它从叙事语料库中迭代提取和改进计划,并构建计划语料库。我们提出了一种基于问题回答(QA)的评估机制,自动评估计划并生成详细的计划细化指导,以指导迭代改进。在学习阶段,我们通过与计划语料库的微调或在计划语料库中的示例中进行上下文学习来构建更好的规划器。最后,我们利用分层方法生成长篇叙事。我们在小说和讲故事领域评估了EIPE-text的有效性。基于GPT-4的评估和人工评估都表明,我们的方法可以生成更连贯和相关的长篇叙事。我们的代码将在未来发布。
我们探讨了将语言作为视觉与语言导航中的感知表示的应用。我们的方法利用现成的视觉系统(用于图像字幕和物体检测),将代理在每个时间步的自我中心全景视图转换为自然语言描述。然后,我们微调一个预训练的语言模型,根据当前视图和轨迹历史选择一个行动,以最好地实现导航指令。与标准设置相反,标准设置是将预训练的语言模型调整为直接使用预训练视觉模型的连续视觉特征,我们的方法使用(离散的)语言作为感知表示。我们在R2R视觉与语言导航基准测试中探索了我们基于语言的导航(LangNav)方法的两种用例:从提示的大型语言模型(GPT-4)生成合成轨迹,用于微调较小的语言模型;以及从在模拟环境(ALFRED)学习的策略转移到真实环境(R2R)的模拟到真实的转移。我们发现,我们的方法在仅有少量金标轨迹(10-100)可用的情况下,改进了依赖视觉特征的强基线,展示了将语言用作导航任务的感知表示的潜力。