每日精选AI研究论文及翻译
专有语言模型(LM)如GPT-4常被用于评估各种LM的响应质量。然而,透明度、可控性和可负担性等问题强烈推动了专门用于评估的开源LM的发展。另一方面,现有的开源评估LM存在重要缺陷:1)它们发出的分数与人类分配的分数有显著差异,2)它们缺乏执行直接评估和成对排名这两种最常见的评估形式的灵活性。此外,它们没有能力根据自定义评估标准进行评估,而是专注于诸如有用性和无害性之类的一般属性。为了解决这些问题,我们介绍了Prometheus 2,这是一种比其前身更强大的评估LM,它与人类和GPT-4的判断非常接近。此外,它能够处理直接评估和成对排名格式,并与用户定义的评估标准分组。在四个直接评估基准和四个成对排名基准上,Prometheus 2在所有经过测试的开源评估LM中与人类和专有LM评委的相关性和一致性得分最高。我们的模型、代码和数据都可以在以下网址公开获取:https://github.com/prometheus-eval/prometheus-eval。
低秩适应(LoRA)已成为大型语言模型(LLMs)参数高效微调(PEFT)的最广泛采用方法之一。LoRA减少了可训练参数的数量和内存使用,同时实现了与完全微调相当的性能。我们旨在评估在现实世界应用中训练和提供使用LoRA进行微调的LLMs的可行性。首先,我们测量了通过量化低秩适配器对10个基础模型和31个任务进行微调的LLMs的质量,共计310个模型。我们发现,4位LoRA微调模型的平均表现优于基础模型34个点,优于GPT-4 10个点。其次,我们调查了用于微调的最有效的基础模型,并评估了任务复杂性启发式的相关和预测能力,以预测微调的结果。最后,我们评估了LoRAX的延迟和并发能力,LoRAX是一个开源的多LoRA推断服务器,可利用共享的基础模型权重和动态适配器加载,在单个GPU上部署多个LoRA微调模型。LoRAX支持LoRA Land,这是一个网络应用,使用单个NVIDIA A100 GPU和80GB内存托管25个LoRA微调的Mistral-7B LLMs。LoRA Land突出了使用多个专门的LLMs而不是单个通用LLM的质量和成本效益。
像GPT-4和ChatGPT这样的聊天机器人现在为数百万用户提供服务。尽管它们被广泛使用,但仍然缺乏展示这些工具在实践中如何被用户使用的公共数据集。为了弥补这一差距,我们向在线用户提供了免费访问ChatGPT的机会,以交换他们的积极、同意的选择,匿名收集他们的聊天记录和请求头。基于此,我们编制了WildChat,这是一个包含100万个用户-ChatGPT对话的语料库,其中包含超过250万个互动轮次。我们将WildChat与其他流行的用户-聊天机器人互动数据集进行比较,发现我们的数据集提供了最多样化的用户提示,包含最多种语言,并呈现了研究人员研究的潜在有毒用例的最丰富多样性。除了带有时间戳的聊天记录,我们还通过包括州、国家和哈希IP地址以及请求头在内的人口统计数据来丰富数据集。这种增强允许对不同地理区域和时间维度的用户行为进行更详细的分析。最后,由于它涵盖了广泛的用例,我们展示了数据集在微调遵循指令模型中的潜在实用性。WildChat在https://wildchat.allen.ai上以AI2 ImpACT许可证发布。
对于最近基于扩散的生成模型,特别是那些包含主题和复杂细节的一系列生成图像,保持一致的内容呈现是一个重要挑战。在本文中,我们提出了一种新的自注意力计算方式,称为一致性自注意力,显著增强了生成图像之间的一致性,并以零-shot方式增强了流行的预训练基于扩散的文本到图像模型。为了将我们的方法扩展到长距离视频生成,我们进一步引入了一种新颖的语义空间时间运动预测模块,名为语义运动预测器。它被训练用于估计语义空间中两个提供的图像之间的运动条件。该模块将生成的图像序列转换为具有平滑过渡和一致主题的视频,比仅基于潜在空间的模块在长视频生成环境中更加稳定。通过将这两个新颖组件合并,我们的框架,称为StoryDiffusion,可以描述一个基于文本的故事,其中包含丰富多样的内容的一致图像或视频。所提出的StoryDiffusion 在视觉故事生成方面进行了开创性探索,展示了图像和视频,我们希望能够从架构修改的角度激发更多研究。我们的代码已公开发布在 https://github.com/HVision-NKU/StoryDiffusion。
将大型语言模型(LLMs)与人类价值观和偏好保持一致对于使其有益且安全至关重要。然而,构建有效的工具来执行对齐可能具有挑战性,特别是对于通常包含数百亿参数的最大和最具竞争力的LLMs。我们创建了NeMo-Aligner,这是一个用于模型对齐的工具包,可以高效地扩展到使用数百个GPU进行训练。NeMo-Aligner配备了针对模型对齐主要范式的高度优化和可扩展的实现,例如:从人类反馈中进行强化学习(RLHF)、直接偏好优化(DPO)、SteerLM和自我对弈微调(SPIN)。此外,我们的工具包支持在参数高效微调(PEFT)设置中运行大多数对齐技术。NeMo-Aligner设计用于可扩展性,允许以最小的努力支持其他对齐技术。它以Apache 2.0许可证开源,并欢迎社区在https://github.com/NVIDIA/NeMo-Aligner进行贡献。
对齐是一种标准程序,用于微调预训练的大型语言模型(LLMs),使其遵循自然语言指令并充当有用的人工智能助手。然而,我们观察到,传统的对齐过程未能提高LLMs的事实准确性,通常导致生成更多虚假事实(即幻觉)。在本文中,我们研究如何使LLM对齐过程更具事实性,首先识别导致在两个对齐步骤中出现幻觉的因素:监督微调(SFT)和强化学习(RL)。特别地,我们发现,训练LLM使用新知识或不熟悉的文本可能会鼓励幻觉。这使得SFT不够事实性,因为它在可能对LLM新颖的人类标记数据上进行训练。此外,标准RL中使用的奖励函数也可能鼓励幻觉,因为它引导LLM在多样的指令集上提供更有帮助的响应,通常更偏好更长、更详细的响应。基于这些观察,我们提出了具有事实性意识的对齐,包括具有事实性意识的SFT和通过直接偏好优化的具有事实性意识的RL。实验证明,我们提出的具有事实性意识的对齐引导LLMs输出更具事实性的响应,同时保持遵循指令的能力。
艺术重新诠释是创作参考作品的变体的实践,制作展示独特艺术风格的配对艺术品。我们探讨这样的图像对是否可以用于定制生成模型,以捕捉展示的风格差异。我们提出了一种新的定制方法——配对定制,该方法从单个图像对中学习风格差异,然后将获得的风格应用于生成过程。与现有方法不同,现有方法是从图像集合中学习模仿单个概念,我们的方法捕捉了配对图像之间的风格差异。这使我们能够应用风格变化,而无需过度拟合到示例中的特定图像内容。为了解决这一新任务,我们采用了一种联合优化方法,明确将风格和内容分开到不同的 LoRA 权重空间中。我们优化这些风格和内容权重,以重现风格和内容图像,并鼓励它们的正交性。在推断过程中,我们通过基于学习权重的新风格指导修改扩散过程。定性和定量实验表明,我们的方法能够有效学习风格,同时避免过度拟合图像内容,突显了从单个图像对中建模这种风格差异的潜力。
音频描述(AD)的发展是使视频内容更具可访问性和包容性的重要一步。传统上,AD的制作需要大量熟练劳动力,而现有的自动化方法仍然需要广泛的训练,以整合多模态输入,并将输出从字幕风格调整为AD风格。在本文中,我们介绍了一种自动化AD生成流程,利用了GPT-4V(ision)强大的多模态和遵循指令的能力。值得注意的是,我们的方法采用了现成的组件,无需额外的训练。通过基于跟踪的角色识别模块,它生成的AD不仅符合已建立的自然语言AD制作标准,而且在各帧之间保持上下文一致的角色信息。对MAD数据集的彻底分析显示,我们的方法在自动化AD制作中取得了与基于学习的方法相当的性能,这得到了CIDEr分数20.5的证实。