每日精选AI研究论文及翻译
在生成模型领域,为特定身份(ID)创建内容已经引起了极大的兴趣。在文本到图像生成(T2I)领域,以主题驱动的内容生成取得了巨大进展,使图像中的ID可控。然而,将其扩展到视频生成领域尚未得到充分探索。在这项工作中,我们提出了一种简单而有效的主题身份可控视频生成框架,称为视频定制扩散(VCD)。通过使用少量图像定义的特定主题ID,VCD加强了身份信息提取,并在初始化阶段注入逐帧相关性,以获得具有较大程度身份保留的稳定视频输出。为实现这一目标,我们提出了三个对于高质量ID保留至关重要的新颖组件:1)通过提示到分割训练的裁剪身份的ID模块,以解开ID信息和背景噪声,实现更准确的ID标记学习;2)具有3D高斯噪声先验的文本到视频(T2V)VCD模块,以获得更好的帧间一致性;3)视频到视频(V2V)人脸VCD和平铺VCD模块,用于去模糊人脸并提升视频分辨率。 尽管其简洁性,我们进行了大量实验以验证VCD能够生成稳定且高质量的视频,并具有比所选强基线更好的ID。此外,由于ID模块的可转移性,VCD也能够与公开可用的微调文本到图像模型良好配合,进一步提高其可用性。代码可在 https://github.com/Zhen-Dong/Magic-Me 获取。
大型语言模型(LLMs)在各个领域取得了显著的推理性能。然而,在推理任务领域,我们发现了一个脆弱性:尽管这种排序不会改变基本任务,但LLMs对前提的排序异常脆弱。特别是,我们观察到,当前提顺序与中间推理步骤所需的上下文一致时,LLMs能够实现最佳性能。例如,在演绎推理任务中,将前提按照提示中地面实证证明的顺序呈现(而不是随机排序),会极大地提高模型的准确性。我们首先研究了前提排序对各种LLMs在演绎推理上的影响,我们的评估显示,对前提顺序进行排列可能导致性能下降超过30%。此外,我们发布了基于GSM8K的基准R-GSM,以检验数学问题解决中的排序效应,我们再次观察到与原始GSM8K基准相比准确性显著下降。
基于扩散的图像生成模型,如DALL-E 3和Stable Diffusion-XL,展现了在生成具有逼真和独特构图的图像方面的显著能力。然而,这些模型在精确推理物体的物理和空间配置方面并不稳健,特别是在接收到非常规、即属于分布之外的描述时,比如“一把有五条腿的椅子”。本文提出了一种具有三维思维链(L3GO)的语言代理,在推理时可以处理当前基于数据驱动的扩散模型难以应对的非常规对象的基于部件的三维网格生成。更具体地说,我们利用大型语言模型作为代理,在三维模拟环境中通过试错来组合所需的对象。为了促进我们的研究,我们开发了一个新的基准测试,名为非常规可行对象(UFO),以及SimpleBlenv,这是建立在Blender之上的一个包装环境,语言代理可以通过API调用构建和组合原子建筑块。人工和自动GPT-4V评估表明,我们的方法在ShapeNet上的三维网格生成方面超越了标准GPT-4和其他语言代理(例如ReAct和Reflexion)。此外,当在我们的UFO基准测试上进行测试时,我们的方法在人类评估中胜过了其他基于文本到二维图像和文本到三维模型的最新技术。
长度泛化,即从较短的训练序列推广到更长的测试序列的能力,对语言模型来说是一个重要挑战。即使是处理相对简单任务的大规模Transformer,这个问题仍然存在。在本文中,我们使用两个整数相加的任务来测试Transformer的长度泛化能力。我们展示了长度泛化成功与数据格式和位置编码类型密切相关。通过使用正确的数据格式和位置编码组合,我们首次展示标准Transformer可以推广到输入长度的2.5倍的序列长度。然而,与分布内泛化不同,长度泛化仍然脆弱,受到诸如随机权重初始化和训练数据顺序等因素的显著影响,导致在不同随机种子之间存在较大方差。
在跨多个节点扩展计算的迫切需求凸显了高效并行计算的重要性,特别是在消息传递接口(MPI)集成领域。生成基于MPI的并行程序是一项具有挑战性的并行编程任务,但却鲜为人知。本研究首先调查了最先进语言模型在生成基于MPI的并行程序方面的性能。研究结果显示,诸如GPT-3.5和PolyCoder(专门的多语言代码模型)等广泛使用的模型在生成基于MPI的程序时表现出明显的性能下降,与生成通用程序相比。相比之下,预训练于C和C++等MPI相关编程语言的领域特定模型,如MonoCoder,表现优于更大的模型。随后,我们通过在HPCorpusMPI上微调MonoCoder,引入了一个专门的MPI程序生成下游任务。我们将结果模型称为MPIrigen。我们提出了一种创新的预处理方法,仅在观察完整代码后进行完成,从而实现更好的完成效果和更广泛的上下文。通过使用一种新颖的面向HPC的评估方法,与GPT-3.5的零样本性能进行比较分析,结果显示MPIrigen在生成准确的MPI函数方面表现出色,位置和功能预测准确率高达0.8,参数预测准确率超过0.9。这种量身定制解决方案的成功凸显了领域特定微调在优化语言模型以生成并行计算代码方面的重要性,为新一代自动并行化工具铺平了道路。本工作的来源可在我们的GitHub MPIrigen存储库找到:https://github.com/Scientific-Computing-Lab-NRCN/MPI-rigen
计算能力,或称为“计算”,对人工智能(AI)能力的开发和部署至关重要。因此,政府和公司已开始利用计算作为治理人工智能的手段。例如,政府正在投资国内计算能力,控制计算资源流向竞争国家,并为某些行业补贴计算资源的获取。然而,这些努力仅仅触及了利用计算来治理人工智能开发和部署的表面。与AI的其他关键输入(数据和算法)相比,与AI相关的计算是一种特别有效的干预点:它是可检测的、可排除的、可量化的,并且是通过极度集中的供应链生产的。这些特征,加上计算对尖端AI模型的独特重要性,表明治理计算可以有助于实现共同的政策目标,例如确保AI的安全和有益使用。更具体地说,决策者可以利用计算促进对AI的监管可见性,分配资源以促进有益结果,并对不负责任或恶意的AI开发和使用实施限制。然而,尽管基于计算的政策和技术在这些领域有助于实现潜在的作用,但它们在实施准备方面存在显著的差异。一些想法目前正在试点,而另一些则受制于对基础研究的需求。此外,对计算治理的天真或范围不明确的方法在隐私、经济影响和权力集中等领域存在重大风险。最后,我们建议设定防护措施,以减少计算治理带来的这些风险。
奖励微调已成为将基础模型与下游目标对齐的一种有前途的方法。在语言领域,通过使用强化学习(RL)来最大化反映人类偏好的奖励,取得了显著成功。然而,在视觉领域,现有基于RL的奖励微调方法受到大规模训练中的不稳定性的限制,使其无法推广到复杂的未知提示。在本文中,我们提出了Proximal Reward Difference Prediction(PRDP),首次在拥有超过100K提示的大规模提示数据集上实现了扩散模型的稳定黑盒奖励微调。我们的关键创新是奖励差异预测(RDP)目标,它与RL目标具有相同的最优解,同时享有更好的训练稳定性。具体而言,RDP目标是一个监督回归目标,要求扩散模型预测由其去噪轨迹生成的图像对的奖励差异。我们在理论上证明,获得完美奖励差异预测的扩散模型恰好是RL目标的最大化者。我们进一步开发了一个带有近端更新的在线算法,以稳定优化RDP目标。在实验中,我们展示了PRDP在小规模训练中可以匹敌已建立的基于RL的方法的奖励最大化能力。此外,通过对Human Preference Dataset v2和Pick-a-Pic v1数据集中的文本提示进行大规模训练,PRDP在各种复杂的未知提示上实现了卓越的生成质量,而基于RL的方法则完全失败。
大型语言模型(LLMs)正变得更加普遍,并已在提供不同形式的写作辅助方面得到广泛应用。然而,由于个性化和控制方面的局限性,LLM驱动的写作系统可能会让用户感到沮丧,尤其是当用户缺乏提示工程经验时,这种情况可能会加剧。我们认为设计是解决这些挑战的一种方式,并介绍了GhostWriter,这是一种AI增强的写作设计探针,用户可以在其中行使增强的代理权和个性化。GhostWriter利用LLMs在用户写作时隐式学习用户的预期写作风格,同时通过手动样式编辑和注释提供显式教学时刻。我们研究了18名参与者在两个不同写作任务上使用GhostWriter,观察到它有助于用户撰写个性化的文本生成,并通过提供多种控制系统写作风格的方式赋予用户权力。通过这项研究,我们提出了关于人们与AI辅助写作的关系的见解,并为未来的工作提供设计建议。
随着生成式人工智能模型日益复杂,后训练量化(PTQ)已成为在移动设备和电视等边缘设备部署超大规模模型的有前途的解决方案。然而,现有的PTQ方案耗费相当多的时间和资源,在需要频繁模型更新和多次超参数调整的实际情况下可能成为瓶颈。作为一种具有成本效益的替代方案,已经提出了一次性PTQ方案。然而,由于无法考虑注意力模块中的层间依赖关系,性能仍然有一定限制,而这是Transformer中非常重要的特性。因此,在本文中,我们提出了一种新颖的PTQ算法,平衡了准确性和效率。所提出的名为"AESPA"的算法的关键思想是为了效率而逐层执行量化,同时考虑跨层依赖以保留注意力分数。通过对各种语言模型的广泛实验和复杂性分析,我们证明了"AESPA"在量化Transformer模型方面既准确又高效。