每日精选AI研究论文及翻译
受大数据预训练驱动,分割任意模型(SAM)已被证明是一个强大且可推广的框架,彻底改变了分割模型。尽管具有普适性,但为特定视觉概念定制SAM而无需人工提示的研究尚未深入,例如,在不同图像中自动分割您的宠物狗。在本文中,我们提出了一种针对SAM的无需训练的个性化方法,称为PerSAM。只需一张带有参考蒙版的单个图像,PerSAM首先通过位置先验定位目标概念,然后通过三种技术在其他图像或视频中对其进行分割:目标引导注意力、目标语义提示和级联后处理。通过这种方式,我们有效地使SAM适应了私人使用而无需任何训练。为了进一步减轻蒙版的模糊性,我们提出了一种高效的一次性微调变体,PerSAM-F。冻结整个SAM,我们引入了两个可学习的权重用于多尺度蒙版,仅在10秒内训练2个参数以提高性能。为了展示我们的有效性,我们构建了一个新的分割数据集PerSeg,用于个性化评估,并在具有竞争性能的视频对象分割上测试了我们的方法。此外,我们的方法还可以增强DreamBooth,以个性化稳定扩散用于文本到图像生成,从而消除背景干扰以获得更好的目标外观学习。代码已发布在https://github.com/ZrrSkywalker/Personalize-SAM。
尽管大型语言模型(如ChatGPT)生成质量令人印象深刻,但将其输出定制化以满足特定用户需求仍然是一个挑战。在本文中,我们提出了一个三代理生成流程,包括一个生成器、一个指导者和一个编辑器,以增强生成输出的定制化。生成器产生初始输出,用户特定的指导者生成编辑指令,编辑器生成符合用户偏好的修订输出。仅推理的大型语言模型(ChatGPT)既充当生成器又充当编辑器,而较小的模型则充当用户特定的指导者,引导生成过程以满足用户需求。指导者使用编辑驱动的强化学习进行训练,利用来自大规模编辑器模型的反馈来优化指令生成。在两个抽象总结数据集上的实验结果表明,我们的方法在生成更符合用户期望的输出方面是有效的。
我们提出了Shap-E,这是一个用于3D资产的条件生成模型。与最近关于3D生成模型的工作不同,这些模型产生单个输出表示,Shap-E直接生成可以呈现为纹理网格和神经辐射场的隐式函数的参数。我们通过两个阶段来训练Shap-E:首先,我们训练一个编码器,将3D资产确定性地映射到隐式函数的参数;其次,我们在编码器的输出上训练一个条件扩散模型。当在大型配对的3D和文本数据集上进行训练时,我们得到的模型能够在几秒钟内生成复杂且多样化的3D资产。与Point-E相比,Point-E是一个基于点云的显式生成模型,Shap-E收敛更快,并且在建模更高维度、多表示输出空间的情况下,达到了可比较或更好的样本质量。我们在https://github.com/openai/shap-e发布了模型权重、推理代码和样本。
最近的AI助手代理,如ChatGPT,主要依赖有人注释的监督微调(SFT)和来自人类反馈的强化学习(RLHF)来使大型语言模型(LLMs)的输出与人类意图保持一致,确保它们是有帮助、符合伦理和可靠的。然而,这种依赖性可能会显著限制AI助手代理的真正潜力,因为获取人类监督的高成本以及相关的质量、可靠性、多样性、自一致性和不良偏见等问题。为了解决这些挑战,我们提出了一种名为SELF-ALIGN的新方法,结合基于原则的推理和LLMs的生成能力,实现AI代理的自我调整,减少人类监督。我们的方法包括四个阶段:首先,我们使用LLM生成合成提示,并使用主题引导方法增加提示的多样性;其次,我们使用一小组人类编写的原则供AI模型遵循,并通过上下文学习(原则应用的演示)引导LLM生成对用户查询有帮助、符合伦理和可靠的响应;第三,我们使用高质量的自我调整响应对原始LLM进行微调,使得生成的模型可以直接为每个查询生成理想的响应,不再需要原则集和演示;最后,我们提供一个细化步骤来解决过于简短或间接的响应问题。将SELF-ALIGN应用于LLaMA-65b基础语言模型,我们开发了一个名为Dromedary的AI助手。仅使用不到300行的人类注释(包括<200个种子提示、16个通用原则和5个用于上下文学习的示例),Dromedary在各种设置的基准数据集上显著超越了几种最先进的AI系统的性能,包括Text-Davinci-003和Alpaca。