每日精选AI研究论文及翻译
生成人工智能(GenAI)系统正日益在各行业和研究领域得到广泛应用。开发人员和最终用户通过提示或提示工程与这些系统进行交互。虽然提示是一个广泛研究的概念,但由于该领域尚处于起步阶段,存在着术语冲突和对提示构成的本体论理解不足。本文通过建立一个提示技术分类法并分析其应用,确立了对提示的结构化理解。我们提出了一个包含33个词汇术语的全面词汇表,一个包含58种仅文本提示技术和40种其他模态的技术的分类法。此外,我们还对自然语言前缀提示的整个文献进行了元分析。
最近生成模型的进展突显了图像记号化在高分辨率图像高效合成中的关键作用。记号化将图像转换为潜在表示,与直接处理像素相比,降低了计算需求,并增强了生成过程的效果和效率。先前的方法,如VQGAN,通常利用具有固定下采样因子的2D潜在网格。然而,这些2D记号化在处理图像中存在的固有冗余方面面临挑战,其中相邻区域经常显示相似性。为了克服这一问题,我们引入了基于Transformer的一维记号化器(TiTok),这是一种创新方法,将图像记号化为一维潜在序列。TiTok提供了更紧凑的潜在表示,比传统技术产生了更高效和有效的表示。例如,一个256 x 256 x 3的图像可以仅减少到32个离散记号,这与先前方法获得的256或1024个记号相比显著减少。尽管TiTok具有紧凑的特性,但在与最先进方法相同的生成器框架下,TiTok实现了竞争性能。具体而言,在ImageNet 256 x 256基准测试中,TiTok达到了1.97的gFID,明显优于MaskGIT基线4.21。当涉及更高分辨率时,TiTok的优势变得更加显著。在ImageNet 512 x 512基准测试中,TiTok不仅优于最先进的扩散模型DiT-XL/2(gFID 2.74 vs. 3.04),还将图像记号减少了64倍,导致生成过程快410倍。我们表现最佳的变体可以显著超越DiT-XL/2(gFID 2.13 vs. 3.04),同时生成高质量样本快74倍。
大型语言模型(LLMs)在代码理解、补全和生成任务中展现出显著进展。编程基准测试由一系列代码挑战和相应的测试用例组成,用作评估不同LLMs在这些任务中能力的标准。然而,大多数现有基准测试主要集中在Python上,仍然局限于有限数量的语言,其他语言是从Python样本翻译而来(例如MultiPL-E),降低了数据的多样性。为了进一步促进代码LLMs的研究,我们提出了一个覆盖40种编程语言(McEval)的大规模多语言代码基准测试,包含16K个测试样本,大大推动了代码LLMs在多语言场景中的极限。该基准测试包含具有精心策划的大规模多语言指令语料库McEval-Instruct的具有挑战性的代码补全、理解和生成评估任务。此外,我们引入了一个在McEval-Instruct上训练的有效多语言编码器mCoder,以支持多语言编程语言生成。对McEval的广泛实验结果表明,在许多语言中,开源模型和闭源LLMs(例如GPT系列模型)之间仍存在艰难的道路。指令语料库、评估基准测试和排行榜可在https://mceval.github.io/ 上找到。
图像编辑是一个实用但具有挑战性的任务,考虑到用户的多样化需求,其中最困难的部分之一是准确描述编辑后的图像应该是什么样子。在这项工作中,我们提出了一种新形式的编辑,称为模仿式编辑,以帮助用户更方便地发挥他们的创造力。具体来说,为了编辑感兴趣的图像区域,用户可以直接从野外参考资料(例如,在线浏览的相关图片)中汲取灵感,而无需处理参考和源图像之间的匹配。这种设计要求系统自动弄清楚如何从参考资料中得出期望的编辑效果。为此,我们提出了一个生成式训练框架,名为MimicBrush,它从视频剪辑中随机选择两个帧,对其中一个帧的一些区域进行遮罩,并学习使用另一个帧的信息恢复被遮罩的区域。通过这种方式,我们的模型,基于扩散先验开发,能够以自监督的方式捕捉不同图像之间的语义对应关系。我们在各种测试案例下实验证明了我们方法的有效性以及其优于现有替代方案的优越性。我们还构建了一个基准来促进进一步的研究。
人工智能正在经历一场范式转变,通过协调多个大型语言模型(LLMs)和其他复杂组件取得突破。因此,为复合人工智能系统开发原则性和自动化优化方法是最重要的新挑战之一。神经网络在早期也面临类似挑战,直到反向传播和自动微分通过使优化变得一键式而改变了这一领域。受此启发,我们引入了TextGrad,一个通过文本执行自动“微分”的强大框架。TextGrad将LLMs提供的文本反馈进行反向传播,以改善复合人工智能系统的各个组件。在我们的框架中,LLMs提供丰富、通用的自然语言建议,以优化计算图中的变量,范围从代码片段到分子结构。TextGrad遵循PyTorch的语法和抽象,灵活且易于使用。它可立即用于各种任务,用户只需提供目标函数,无需调整框架的组件或提示。我们展示了TextGrad在各种应用中的有效性和普适性,从问题回答和分子优化到放射治疗计划。在不修改框架的情况下,TextGrad将Google-Proof问题回答中GPT-4o的零样本准确率从51%提高到55%,在优化LeetCode-Hard编程问题解决方案方面获得了20%的相对性能增益,改善了推理提示,设计了具有理想体外结合性的新药物样小分子,并设计了具有高特异性的放射肿瘤学治疗计划。TextGrad奠定了加速下一代人工智能系统开发的基础。
复杂的多步推理任务,例如解决数学问题或生成代码,即使对于最先进的大型语言模型(LLMs)也仍然是一个重要障碍。利用结果奖励模型(ORM)验证LLM输出是一种标准的推理时技术,旨在增强LLMs的推理性能。然而,对于具有冗长或多跳推理链的推理任务,其中间结果既没有得到适当的奖励也没有受到惩罚,这种方法仍然不足。过程监督通过在推理过程中分配中间奖励来解决这一限制。迄今为止,用于收集过程监督数据的方法要么依赖于人工注释,要么依赖于每步蒙特卡洛估计,这两种方法都难以扩展,从而阻碍了这一技术的广泛应用。针对这一挑战,我们提出了一种名为OmegaPRM的新型分而治之风格的蒙特卡洛树搜索(MCTS)算法,用于高效收集高质量的过程监督数据。该算法通过二分搜索快速识别“思维链”(CoT)中的第一个错误,并平衡正负样本,从而确保效率和质量。因此,我们能够收集超过150万个过程监督注释,以训练一个过程奖励模型(PRM)。利用这种完全自动化的过程监督以及加权自一致性算法,我们提高了经过调整的Gemini Pro模型的数学推理性能,在MATH基准测试中取得了69.4%的成功率,相对于51%的基准模型性能提高了36%。此外,整个过程无需任何人工干预,使我们的方法在财务和计算成本上都比现有方法更具成本效益。
本文介绍了MCT自我优化(MCTSr)算法,这是大型语言模型(LLMs)与蒙特卡洛树搜索(MCTS)创新集成的成果,旨在提高复杂数学推理任务的性能。MCTSr解决了LLMs在战略和数学推理中准确性和可靠性方面的挑战,利用系统化探索和启发式自我优化机制改进了LLMs内的决策框架。该算法通过选择、自我优化、自我评估和反向传播的迭代过程构建蒙特卡洛搜索树,利用改进的上置信界限(UCB)公式优化探索与开发之间的平衡。大量实验表明MCTSr在解决奥林匹克级数学问题方面的有效性,显著提高了多个数据集(包括GSM8K、GSM Hard、MATH以及奥林匹克级基准数据集如Math Odyssey、AIME和OlympiadBench)的成功率。该研究推动了LLMs在复杂推理任务中的应用,并为未来AI集成奠定了基础,提高了LLMs驱动应用中的决策准确性和可靠性。
在本技术报告中,我们介绍了在开发拥有1460亿参数和16个专家的高性能混合专家(MoE)大型语言模型(LLM)Skywork-MoE时实施的训练方法。它是从我们的Skywork-13B模型的预先存在的密集检查点初始化的。我们探讨了升级循环利用与从头开始训练初始化的比较有效性。我们的研究结果表明,在这两种方法之间的选择应考虑现有密集检查点的性能和MoE训练预算。我们强调了两种创新技术:门控逻辑归一化,可以改善专家多样化,以及自适应辅助损失系数,允许对辅助损失系数进行特定层的调整。我们的实验结果验证了这些方法的有效性。利用这些技术和见解,我们在我们的SkyPile语料库的精简子集上训练了我们升级后的Skywork-MoE。评估结果表明,我们的模型在广泛的基准测试中表现出色。
生成结合视觉和听觉感官体验对沉浸式内容的消费至关重要。最近神经生成模型的进展使得可以跨多种形式如图像、文本、语音和视频创建高分辨率内容。尽管取得了这些成功,但在生成与视觉内容相辅相成的高质量空间音频方面仍存在显著差距。此外,当前音频生成模型在生成自然音频、语音或音乐方面表现出色,但在整合沉浸式体验所需的空间音频线索方面表现不佳。在这项工作中,我们介绍了SEE-2-SOUND,这是一种零样本方法,将任务分解为:(1)识别视觉感兴趣区域;(2)在3D空间中定位这些元素;(3)为每个元素生成单声道音频;以及(4)将它们整合到空间音频中。利用我们的框架,我们展示了为高质量视频、图像和互联网动态图像以及通过学习方法生成的媒体生成空间音频的引人入胜结果。
现有的动态场景生成方法主要依赖于从预训练的3D生成模型中提炼知识,这些模型通常在合成物体数据集上进行微调。因此,生成的场景通常以物体为中心,缺乏照片般的逼真感。为了解决这些局限性,我们引入了一种新颖的流程,旨在实现逼真的文本到4D场景生成,摒弃了对多视角生成模型的依赖,而是充分利用在多样的真实世界数据集上训练的视频生成模型。我们的方法首先利用视频生成模型生成参考视频。然后,我们使用从参考视频精心生成的冻结时间视频来学习视频的规范3D表示。为了处理冻结时间视频中的不一致性,我们共同学习逐帧变形来建模这些缺陷。然后,我们学习基于规范表示的时间变形,以捕捉参考视频中的动态交互。该流程促进了具有增强逼真感和结构完整性的动态场景生成,可以从多个视角查看,从而在4D场景生成中树立了新的标准。
扩散模型因其在各种应用中具有强大的生成能力而受到社区的广泛关注。然而,它们典型的多步骤顺序去噪特性导致累积延迟较高,从而排除了并行计算的可能性。为了解决这一问题,我们引入了AsyncDiff,这是一种通用且即插即用的加速方案,可以实现模型并行计算跨多个设备。我们的方法将繁重的噪声预测模型分解为多个组件,将每个组件分配给不同的设备。为了打破这些组件之间的依赖链,它通过利用连续扩散步骤中隐藏状态之间的高相似性,将传统的顺序去噪转换为异步过程。因此,每个组件都可以在不同设备上并行计算。所提出的策略显著降低了推断延迟,同时对生成质量的影响最小。具体来说,对于稳定扩散 v2.1,AsyncDiff 在四个 NVIDIA A5000 GPU 上实现了 2.7 倍的加速,几乎没有降级,并且在 CLIP 分数仅降低 0.38 的情况下实现了 4.0 倍的加速。我们的实验还表明,AsyncDiff 可轻松应用于视频扩散模型,并取得了令人鼓舞的表现。代码可在 https://github.com/czg1225/AsyncDiff 获取。
尽管扩散模型在生成高质量图像方面表现出色,先前的研究报告指出扩散模型与自回归(AR)方法在语言建模方面存在显著的性能差距。在这项研究中,我们展示了简单的掩蔽离散扩散比先前认为的更具性能。我们应用了一种有效的训练方法,提高了掩蔽扩散模型的性能,并推导出了一个简化的 Rao-Blackwellized 目标,从而获得额外的改进。我们的目标具有简单的形式 -- 它是经典掩蔽语言建模损失的混合体,并可用于训练仅包含编码器的语言模型,允许使用高效的采样器,包括能够半自回归地生成任意长度文本的传统语言模型。在语言建模基准测试中,一系列经过现代工程实践训练的掩蔽扩散模型实现了扩散模型中的最新技术水平,并接近自回归困惑度。我们在以下网址发布了我们的代码:https://github.com/kuleshov-group/mdlm
大型语言模型(LLM)在医学问答基准上取得了令人印象深刻的表现。然而,高基准准确性并不意味着性能可以泛化到真实临床环境中。医学问答基准依赖于与量化LLM性能一致的假设,但这些假设在临床开放世界中可能不成立。然而,LLM学习了广泛的知识,可以帮助LLM泛化到实际条件,而不受庆祝基准中不切实际假设的影响。我们试图量化LLM医学问答基准性能在违反基准假设时的泛化能力。具体而言,我们提出了一种称为MedFuzz(医学模糊化)的对抗方法。MedFuzz试图以混淆LLM为目的修改基准问题。我们通过针对MedQA基准中关于患者特征的强假设展示了这一方法。成功的“攻击”以一种不太可能愚弄医学专家但仍“欺骗”LLM使其从正确答案变为错误答案的方式修改基准项目。此外,我们提出了一种排列测试技术,可以确保成功的攻击在统计上显著。我们展示了如何利用“MedFuzzed”基准的性能,以及单个成功的攻击。这些方法显示出在更现实的环境中提供LLM稳健运行能力洞察的潜力。
我们提出了DenseAV,这是一种新颖的双编码器接地架构,通过观看视频仅学习高分辨率、语义丰富且视听对齐的特征。我们展示了DenseAV能够在没有明确定位监督的情况下发现单词的“含义”和声音的“位置”。此外,它能够在没有监督的情况下自动发现并区分这两种关联类型。我们展示了DenseAV的定位能力来自一种新的多头特征聚合算子,该算子直接比较密集图像和音频表示以进行对比学习。相比之下,许多学习“全局”音频和视频表示的其他系统无法定位单词和声音。最后,我们提供了两个新数据集,以改进通过语音和声音提示的语义分割的评估。在这些数据集和其他数据集上,我们展示了DenseAV在语音和声音提示的语义分割方面明显优于先前的技术。DenseAV在跨模态检索方面的性能优于之前的最先进技术ImageBind,且参数使用不到一半。项目页面:https://aka.ms/denseav {https://aka.ms/denseav}
单图像重照明是一项具有挑战性的任务,涉及对几何、材质和光照之间复杂相互作用的推理。许多先前的方法要么仅支持特定类别的图像,如肖像,要么需要特殊的拍摄条件,比如使用手电筒。另外,一些方法明确地将场景分解为固有组件,如法线和BRDF,但这可能不准确或表达不足。在这项工作中,我们提出了一种新颖的端到端二维重照明扩散模型,名为神经Gaffer,它可以接受任何对象的单个图像,并能在任何新颖的环境光照条件下合成准确、高质量的重照图像,只需将图像生成器置于目标环境图的条件下,而无需明确场景分解。我们的方法基于一个预训练的扩散模型,并在一个合成重照数据集上对其进行微调,揭示并利用扩散模型中存在的对光照的固有理解。我们在合成和野外互联网图像上评估了我们的模型,并展示了它在泛化和准确性方面的优势。此外,通过与其他生成方法结合,我们的模型使许多下游的二维任务成为可能,如基于文本的重照和对象插入。我们的模型还可以作为强大的重照先验,用于三维任务,比如重照辐射场。
大型语言模型(LLMs)对抗篡改的鲁棒性,如越狱攻击,仍然是一个重大挑战。在这项工作中,我们提出了一种方法,增强LLM的自我批评能力,并通过经过清理的合成数据进一步微调它。这是通过添加一个外部评论模型来实现的,该模型可以与原模型合并,从而增强自我批评能力,并改善LLM对抗性提示的响应鲁棒性。我们的结果表明,合并和自我批评的结合可以显著降低对手的攻击成功率,从而提供一种有前途的防御机制来抵御越狱攻击。代码、数据和模型发布在https://github.com/vicgalle/merging-self-critique-jailbreaks。