每日精选AI研究论文及翻译
在指令上对大型语言模型(LLMs)进行微调可显著提升自然语言任务的性能。我们应用代码进行指令微调,利用Git提交的自然结构,将代码更改与人类指令配对。我们编制了CommitPack:跨350种编程语言的4TB Git提交。我们在拥有16B参数的StarCoder模型上对比CommitPack与其他自然和合成代码指令(xP3x、Self-Instruct、OASST),在HumanEval Python基准测试中取得了最先进的性能,通过在未经OpenAI输出训练的模型中达到46.2%的一次通过率。我们进一步引入HumanEvalPack,将HumanEval基准测试扩展到总共3个编码任务(代码修复、代码解释、代码合成)涵盖6种语言(Python、JavaScript、Java、Go、C++、Rust)。我们的模型OctoCoder和OctoGeeX在HumanEvalPack中在所有宽松模型中取得最佳性能,展示了CommitPack在泛化到更广泛语言和自然编码任务方面的优势。代码、模型和数据可在https://github.com/bigcode-project/octopack 免费获取。
近年来,大型文本到图像扩散模型展现出强大的力量,具有令人印象深刻的生成能力,可以创造高保真度的图像。然而,仅使用文本提示生成所需图像非常棘手,通常涉及复杂的提示工程。作为文言所说,“一图胜千言”,图像提示是文本提示的替代方案。尽管直接从预训练模型进行微调的现有方法是有效的,但它们需要大量计算资源,并且与其他基础模型、文本提示和结构控制不兼容。在本文中,我们提出了IP-Adapter,这是一种有效且轻量级的适配器,用于实现预训练文本到图像扩散模型的图像提示功能。我们的IP-Adapter的关键设计是解耦的交叉注意力机制,将文本特征和图像特征的交叉注意力层分开。尽管我们的方法简单,但只有2200万参数的IP-Adapter可以实现与完全微调的图像提示模型相当甚至更好的性能。由于我们冻结了预训练扩散模型,所提出的IP-Adapter不仅可以泛化到从相同基础模型微调的其他自定义模型,还可以用于使用现有可控工具进行可控生成。借助解耦的交叉注意力策略,图像提示也可以与文本提示很好地配合,实现多模态图像生成。该项目页面位于https://ip-adapter.github.io。
基于音频文本提示的生成式语音模型最近取得了显著进展,实现了高质量的零-shot文本转语音等创新。然而,现有模型在处理涉及转换输入语音和处理在恶劣声学条件下捕获的音频的多样化音频文本语音生成任务方面仍然存在局限性。本文介绍了SpeechX,一种多功能语音生成模型,能够进行零-shot TTS和各种语音转换任务,处理干净和嘈杂信号。SpeechX将神经编解码器语言建模与使用任务相关提示的多任务学习相结合,实现了统一和可扩展的建模,并提供了一种一致的方式来利用文本输入进行语音增强和转换任务。实验结果显示,SpeechX在各种任务中表现出色,包括零-shot TTS、降噪、目标说话人提取、语音去除以及带有或不带有背景噪声的语音编辑,其性能与专门模型相比在各项任务中达到了可比或更优的表现。请访问https://aka.ms/speechx查看演示样本。
我们介绍了Platypus,这是一系列经过精细调整和合并的大型语言模型(LLMs),在HuggingFace的Open LLM排行榜中表现最强,目前位居第一。在这项工作中,我们描述了以下内容:(1)我们精心筛选的数据集Open-Platypus,这是其他开放数据集的子集,我们向公众发布;(2)我们对LoRA模块进行精细调整和合并的过程,以保留预训练LLMs的强先验,同时将特定领域知识展现出来;(3)我们努力检查测试数据泄漏和训练数据污染,这可以为未来的研究提供信息。具体而言,Platypus系列在各种模型大小的定量LLM指标上表现出色,在仅使用其他最先进的经过精细调整的LLMs所需的一小部分调整数据和总体计算的情况下,登顶全球Open LLM排行榜。特别是,一个13B的Platypus模型可以在单个A100 GPU上使用25k个问题在5小时内进行训练。这证明了我们Open-Platypus数据集的质量,并为该领域的更多改进提供了机会。项目页面:https://platypus-llm.github.io
最近的实证证据表明,在使用前缀语言模型(prefixLM)时,基于Transformer的上下文学习表现更好。在前缀语言模型中,所有上下文样本都可以相互关注,相比之下,因果语言模型(causalLM)使用自回归注意力,禁止上下文样本关注未来样本。虽然这一结果很直观,但从理论角度并不为人所理解。本文采用理论方法,分析了在特定参数构建下前缀语言模型和因果语言模型的收敛行为。我们的分析显示,这两种语言模型类型都以线性速率收敛到它们的稳定点,但前缀语言模型收敛到线性回归的最优解,而因果语言模型的收敛动态遵循在线梯度下降算法,即使样本数量无限增长,也不能保证达到最优解。我们通过对合成和真实任务以及使用各种类型的Transformer进行的实证实验来补充我们的理论观点。我们的实验验证了在所有设置中,因果语言模型在性能上始终不如前缀语言模型。
盲目人脸修复旨在从具有未知退化的图像中恢复高质量的人脸图像。当前算法主要引入先验来补充高质量细节并取得令人印象深刻的进展。然而,大多数这些算法忽略了人脸中丰富的上下文信息及其与先验的相互作用,导致性能次优。此外,它们较少关注合成与真实场景之间的差距,限制了对真实世界应用的鲁棒性和泛化能力。在这项工作中,我们提出了RestoreFormer++,一方面引入全空间注意机制来建模上下文信息及其与先验的相互作用,另一方面探索了一个扩展退化模型,以帮助生成更真实的退化人脸图像,从而减轻合成到真实世界的差距。与当前算法相比,RestoreFormer++ 具有几个关键优势。首先,我们引入了多头交叉注意力机制来完全探索受损信息与高质量先验之间的空间交互,而不是像传统视觉变换器那样使用多头自注意力机制。通过这种方式,它可以促进RestoreFormer++以更高的真实感和保真度恢复人脸图像。其次,与面向识别的字典相反,我们学习了一个面向重建的字典作为先验,其中包含更多多样化的高质量面部细节,并更符合修复目标。第三,我们引入了一个包含更多真实退化场景的扩展退化模型,用于训练数据合成,从而有助于增强我们的RestoreFormer++模型的鲁棒性和泛化能力。大量实验证明,RestoreFormer++在合成和真实世界数据集上均优于现有算法。
凭借对自然语言领域的深刻理解,我们在跨越大领域差距进行翻译并使骨架重生方面取得了令人期待的成果。在这项工作中,我们使用文本引导的潜在扩散模型进行零样本图像到图像的翻译(I2I),跨越大领域差距(longI2I),其中需要生成大量新的视觉特征和新的几何形状以进入目标领域。能够在大领域差距上进行翻译在刑事学、占星术、环境保护和古生物学等各种实际应用中具有广泛的应用。在这项工作中,我们引入了一个新任务Skull2Animal,用于在头骨和活体动物之间进行翻译。在这个任务中,我们发现无引导的生成对抗网络(GANs)无法跨越大领域差距进行翻译。我们探讨了引导扩散和图像编辑模型的使用,提供了一个新的基准模型Revive-2I,能够通过文本提示的潜在扩散模型执行零样本I2I。我们发现,在长距离I2I中引导是必要的,因为为了弥合大领域差距,需要有关目标领域的先验知识。此外,我们发现提示提供了关于目标领域的最佳和最可扩展的信息,因为分类器引导的扩散模型需要针对特定用例进行重新训练,并且由于它们训练的各种图像种类繁多,对目标领域的约束不够强。
机器翻译(MT)的自动评估是推动MT系统快速迭代发展的关键工具。尽管在估计单一标量质量得分方面取得了相当大的进展,但当前的度量标准缺乏注解单个错误等更详细方案的信息量,例如多维质量度量(MQM)。本文通过提出AutoMQM来填补这一空白,这是一种利用大型语言模型(LLMs)的推理和上下文学习能力,并要求其识别和分类翻译中错误的提示技术。我们首先通过简单的得分预测提示评估最近的LLMs,如PaLM和PaLM-2,然后通过上下文学习和微调研究标记数据的影响。接着,我们使用PaLM-2模型评估AutoMQM,并发现与仅提示得分相比(尤其是对于更大的模型),它提高了性能,同时通过与人类注释相一致的错误跨度提供了可解释性。
我们介绍了VisIT-Bench(Visual InsTruction Benchmark),这是一个用于评估适用于实际应用的指令跟随视觉-语言模型的基准。我们的出发点是策划了70个“指令系列”,我们设想指令调整的视觉-语言模型应该能够处理这些系列。任务不仅限于像VQAv2和COCO这样的评估,范围从基本识别到游戏玩法和创造性生成。在策划之后,我们的数据集包括592个测试查询,每个查询都附有一个由人类撰写的指令条件说明。这些描述展示了特定指令的因素,例如,对于一个询问店铺对轮椅用户的无障碍性的指令,指令条件说明描述了坡道/潜在障碍物。这些描述使得我们可以:1)为每个实例收集经人类验证的参考输出;2)使用仅文本的LLM自动评估候选多模态生成,与人类判断保持一致。我们通过人类和自动评估量化模型与参考之间的质量差距;例如,最优秀的指令跟随模型仅在27%的比较中击败了GPT-4参考。VisIT-Bench是一个动态的参与项目,从业者只需在项目网站上提交其模型的响应;数据、代码和排行榜可在visit-bench.github.io上找到。