每日精选AI研究论文及翻译
最近在文本到图像生成模型方面取得的进展为视觉创造力开辟了巨大潜力。然而,这些模型在生成一致的角色方面存在困难,这是许多现实世界应用的关键方面,如故事可视化、游戏开发资产设计、广告等。当前方法通常依赖于目标角色的多个现有图像或涉及劳动密集型的手动过程。在这项工作中,我们提出了一个完全自动化的解决方案,用于一致角色生成,其唯一输入是文本提示。我们引入了一个迭代过程,在每个阶段,识别出一组连贯的图像,共享相似的身份,并从这组图像中提取出更一致的身份。我们的定量分析表明,与基准方法相比,我们的方法在提示对齐和身份一致性之间取得了更好的平衡,这些发现得到了用户研究的支持。最后,我们展示了我们方法的几个实际应用。项目页面位于https://omriavrahami.com/the-chosen-one
文本到图像扩散模型展示了在将文本提示转换为连贯图像方面的显著能力,然而其推断的计算成本仍然是一个持久的挑战。为了解决这个问题,我们提出了UFOGen,这是一种新颖的生成模型,专为超快速、一步到位的文本到图像合成而设计。与传统方法侧重于改进采样器或应用蒸馏技术于扩散模型不同,UFOGen采用了一种混合方法,将扩散模型与GAN目标相结合。利用新引入的扩散-GAN目标和使用预训练的扩散模型进行初始化,UFOGen在单步骤中擅长高效生成基于文本描述的高质量图像。除了传统的文本到图像生成,UFOGen在应用中展现了多样性。值得注意的是,UFOGen是首批能够实现一步到位的文本到图像生成和多样化下游任务的先驱模型之一,为高效生成模型领域的重大进展提供了突破。
尽管思维链在增强语言模型推理方面取得了成功,但其基本过程仍不太清楚。虽然逻辑上合理的推理在思维链中显然至关重要,但先前的研究惊人地发现,使用无效演示时影响甚微。此外,传统的思维链未告知语言模型应避免哪些错误,这可能导致更多错误。因此,受人类如何从正面和负面示例中学习的启发,我们提出对比思维链以增强语言模型推理能力。与传统思维链相比,我们的方法提供有效和无效推理演示,引导模型逐步推理并减少推理错误。为了提高泛化能力,我们引入了一种自动构建对比演示的方法。我们在推理基准上的实验表明,对比思维链可以作为思维链提示的一种通用增强方法。
神经辐射场在新视角合成方面取得了空前的质量,但其体积形式仍然昂贵,需要大量样本来渲染高分辨率图像。体积编码对于表示模糊几何体如植被和头发至关重要,并且非常适合随机优化。然而,许多场景最终主要由固体表面组成,可以通过每像素单个样本准确渲染。基于这一观点,我们提出了一种神经辐射场公式,可以在体积和基于表面的渲染之间平滑过渡,极大加速渲染速度,甚至提高视觉保真度。我们的方法构建了一个明确的网格包络,空间限定了神经体积表示。在固体区域,包络几乎收敛到一个表面,并且通常可以用单个样本渲染。为此,我们使用一个学习的空间变化核大小来推广NeuS公式,该核大小编码了密度的扩散,对体积状区域拟合宽核,对表面状区域拟合紧核。然后,我们提取一个狭窄带围绕表面的明确网格,带宽由核大小确定,并在此带内微调辐射场。在推断时,我们对网格投射光线,并仅在封闭区域内评估辐射场,大大减少了所需的样本数量。实验表明,我们的方法实现了高保真度的高效渲染。我们还展示了提取的包络使得诸如动画和模拟等下游应用成为可能。
我们提出了Tied-LoRA,这是一种简单的范式,利用权重绑定和选择性训练,进一步增加了低秩适应(LoRA)方法的参数效率。我们的研究涵盖了所有可行的参数训练/冻结组合,结合权重绑定,以确定在性能和可训练参数数量之间的最佳平衡。通过涵盖各种任务和两个基础语言模型的实验,我们提供了分析结果,揭示了效率和性能之间的权衡。我们的实验揭示了一个特定的Tied-LoRA配置,通过仅利用标准LoRA方法使用的参数的13%,在几个任务中展现出可比较的性能。
大型语言模型在代码生成基准测试中表现出色。然而,这些基准测试成果与其在实际应用中的适用性之间存在明显差距,主要原因在于现实世界编程对现有库的依赖。本研究旨在提出一种新的评估设置,其中大型语言模型利用开源库完成机器学习任务,而非从零开始编写代码。因此,我们提出了ML-Bench,一个广泛的基准测试,旨在评估大型语言模型在利用开源库中现有功能方面的有效性。该基准测试包括10044个样本,涵盖了14个知名的机器学习GitHub存储库中的130个任务。在这种设置下,给定一个特定的机器学习任务说明和代码库中的相关自述文件,大型语言模型被要求生成完成任务的代码。这需要理解交织着长篇语言和代码的文档,以及复杂的跨文件代码结构的理解,从而引入了新的挑战。值得注意的是,虽然GPT-4相对其他大型语言模型表现出显著改进,但它仅完成了39.73\%的任务,留下了巨大的改进空间。我们通过提出ML-Agent来解决这些挑战,旨在有效地浏览代码库,定位文档,检索代码并生成可执行代码。实证结果表明,建立在GPT-4基础上的ML-Agent带来了进一步的改进。代码、数据和模型可在https://ml-bench.github.io/获取。
基准测试在机器学习算法的发展中发挥着重要作用。例如,强化学习(RL)领域的研究受到可用环境和基准测试的深刻影响。然而,RL环境传统上在CPU上运行,限制了其在典型学术计算中的可扩展性。JAX的最新进展使得更广泛地利用硬件加速来克服这些计算障碍成为可能,实现了大规模并行RL训练管线和环境。这对多智体强化学习(MARL)研究尤为重要。首先,在每个环境步骤中必须考虑多个智体,增加了计算负担;其次,由于非稳态性、分散式部分可观测性或其他MARL挑战,样本复杂度也增加了。在本文中,我们介绍了JaxMARL,这是第一个结合易用性与GPU加速效率的开源代码库,支持大量常用的MARL环境以及流行的基准算法。从挂钟时间的角度来看,我们的实验表明,基于JAX的训练管线每次运行比现有方法快高达12500倍。这使得能够进行高效而彻底的评估,有望缓解该领域的评估危机。我们还介绍并对SMAX进行基准测试,这是流行的星际争霸多智体挑战的矢量化简化版本,无需运行星际争霸II游戏引擎。这不仅实现了GPU加速,还提供了更灵活的MARL环境,为自我对弈、元学习和其他未来MARL应用释放了潜力。我们的代码可在https://github.com/flairox/jaxmarl找到。
最近,一些领先的人工智能实验室选择开源他们的模型,或者限制对模型的访问,引发了关于日益强大的人工智能模型是否应该共享,以及如何共享的讨论。在人工智能领域,开源通常指的是使模型的架构和权重可以自由公开地供任何人修改、研究、构建和使用。这样做的优势包括促进外部监督、加速进展,并分散对人工智能开发和使用的控制。然而,这也带来了越来越多的滥用和意外后果的潜在风险。本文对开源高度强大的基础模型的风险和好处进行了审视。虽然开源在历史上对大多数软件和人工智能开发过程提供了实质性的净益,但我们认为,对于未来可能开发的一些高度强大的基础模型,开源可能存在足够极端的风险,超过了好处。在这种情况下,高度强大的基础模型不应该被开源,至少最初不应该。本文探讨了包括非开源模型共享在内的替代策略。最后,本文提出了对开发者、标准制定机构和政府的建议,以建立安全和负责任的模型共享实践,并在安全的前提下保留开源的好处。