每日精选AI研究论文及翻译
大型神经网络在浮点张量乘法上消耗了大部分计算资源。在这项工作中,我们发现一个浮点乘法器可以用一个高精度的整数加法器来近似。我们提出了线性复杂度乘法 L-Mul 算法,它用整数加法操作来近似浮点数乘法。这种新算法比8位浮点乘法消耗的计算资源显著更少,但却实现了更高的精度。与8位浮点乘法相比,该方法实现了更高的精度,但消耗的比特级计算资源明显更少。由于浮点数乘法比整数加法操作需要更高的能量,将 L-Mul 操作应用于张量处理硬件有望通过逐元素浮点张量乘法降低95%的能量成本和80%的点积能量成本。我们计算了 L-Mul 的理论误差期望,并在广泛的文本、视觉和符号任务上评估了该算法,包括自然语言理解、结构推理、数学和常识问题回答。我们的数值分析实验证明了理论误差估计,表明具有4位尾数的 L-Mul 达到了与 float8_e4m3 乘法相当的精度,而具有3位尾数的 L-Mul 胜过了 float8_e5m2。在流行基准测试上的评估结果显示,直接将 L-Mul 应用于注意力机制几乎没有损失。我们进一步展示,在变压器模型中用3位尾数 L-Mul 替换所有浮点乘法在微调和推断中实现了与使用 float8_e4m3 作为累积精度相当的精度。
最近在表示学习和函数学习方面取得的进展在人工智能的各个领域展现出了巨大的潜力。然而,这些范式的有效整合构成了一个重大挑战,特别是在用户必须根据数据集特征手动决定是否应用表示学习或函数学习模型的情况下。为了解决这个问题,我们引入了MLP-KAN,这是一种旨在消除手动模型选择需求的统一方法。通过在一个专家混合模型中集成多层感知器(MLPs)进行表示学习和科尔莫戈洛夫-阿诺德网络(KANs)进行函数学习,MLP-KAN能够动态适应当前任务的特定特征,确保最佳性能。嵌入到基于Transformer的框架中,我们的工作在各个领域的四个广泛使用的数据集上取得了显著的成果。广泛的实验评估显示了其卓越的通用性,为深度表示学习和函数学习任务提供了竞争性的性能。这些发现突显了MLP-KAN简化模型选择过程的潜力,为各个领域提供了全面、可适应的解决方案。我们的代码和权重可在https://github.com/DLYuanGod/MLP-KAN 上获得。
生成式人工智能,特别是语言模型(LMs),有潜力改变具有社会影响的现实领域,特别是在专家资源有限的情况下。例如,在教育领域,用专家指导培训新手教育工作者对提高教育质量至关重要,但成本高昂,从而在规模上改善教育质量存在重大障碍。这一挑战对来自弱势社区的学生造成不成比例的伤害,而这些学生最有可能从高质量教育中获益。我们介绍了Tutor CoPilot,这是一种新颖的人工智能方法,利用专家思维模型为导师提供类似专家的指导。这项研究是在实时辅导中进行的第一项人工智能系统的随机对照试验,涉及来自历史上被忽视社区的900名导师和1,800名K-12学生。根据预先注册的分析计划,我们发现与使用Tutor CoPilot的导师合作的学生更有可能掌握主题(p<0.01)的概率高出4个百分点。值得注意的是,评级较低的导师的学生获益最大,掌握程度提高了9个百分点。我们发现,Tutor CoPilot每年每位导师的成本仅为20美元。我们使用分类器分析了55万条以上的消息,以识别教学策略,并发现使用Tutor CoPilot的导师更有可能使用高质量策略促进学生理解(例如,提出引导性问题),并且更不太可能直接给出答案。导师访谈突出了Tutor CoPilot的指导如何帮助导师应对学生需求,尽管他们指出了Tutor CoPilot存在的问题,例如生成的建议不适合年级水平。总的来说,我们对Tutor CoPilot的研究展示了人工智能系统如何在现实领域扩展专业知识,弥合技能差距,并创造一个未来,让所有学生都能获得高质量教育。
在注意力机制的背景中不必要的元素会降低性能。我们引入了选择性注意力,这是对标准注意力机制的一个简单且无需参数的改变,可以减少对不必要元素的关注。选择性注意力提高了各种模型大小和上下文长度下的语言建模性能。例如,在C4上使用语言建模目标训练的一系列Transformer模型,通过选择性注意力的表现与标准Transformer模型相当,而后者在注意力模块中拥有大约两倍的头数和参数。选择性注意力还允许减少注意力上下文缓冲区的大小,在推断过程中可以显著减少内存和计算需求。例如,在C4上训练具有1亿参数的Transformer模型,当配备选择性注意力时,其注意力模块的内存需求分别比不使用选择性注意力的模型减少了16倍、25倍和47倍,且验证困惑度相同。
基于视觉语言模型(VLM)的机器人是否会在检测到湿滑地面时警告我们?最近的VLM展示了令人印象深刻的能力,然而它们推断结果和原因的能力仍未得到充分探讨。为了解决这个问题,我们引入了NL-Eye,一个旨在评估VLM视觉推理能力的基准。NL-Eye将归纳推理(NLI)任务调整到视觉领域,要求模型根据前提图像评估假设图像的合理性并解释他们的决策。NL-Eye包含了350个精心策划的三元组示例(1,050张图像),涵盖了多种推理类别:物理、功能、逻辑、情感、文化和社会。数据筛选过程包括两个步骤 - 撰写文本描述和使用文本到图像模型生成图像,这两者都需要大量人工参与以确保高质量和具有挑战性的场景。我们的实验表明,VLM在NL-Eye上表现困难,通常表现为随机基准水平,而人类在合理性预测和解释质量方面表现出色。这表明了现代VLM的归纳推理能力存在不足。NL-Eye代表了向开发能够进行强大多模态推理的VLM迈出的关键一步,这些推理可用于真实世界应用,包括预防事故的机器人和生成视频验证。
Mamba,作为状态空间模型的一个特例,在医学图像分析中作为一种替代基于模板的深度学习方法而备受青睐。虽然变压器是强大的架构,但存在一些缺点,包括二次计算复杂度以及无法有效处理长距离依赖关系。这种限制影响了在医学成像中对大型和复杂数据集的分析,其中存在许多空间和时间关系。相比之下,Mamba提供了一些优势,使其非常适合医学图像分析。它具有线性时间复杂度,这是对变压器的显著改进。Mamba在没有注意机制的情况下处理更长的序列,实现更快的推断并且需要更少的内存。Mamba还展现了在合并多模态数据方面的出色性能,提高了诊断准确性和患者预后。本文的组织使读者能够逐步欣赏Mamba在医学成像中的能力。我们首先定义SSM和模型的核心概念,包括S4、S5和S6,然后探讨Mamba架构,如纯Mamba、U-Net变体以及与卷积神经网络、变压器和图神经网络混合的模型。我们还涵盖了Mamba的优化、技术和调整、扫描、数据集、应用、实验结果,并以医学成像中的挑战和未来方向作结。本综述旨在展示Mamba在克服医学成像领域内现有障碍方面的变革潜力,为该领域的创新进展铺平道路。本文审查的应用于医学领域的Mamba架构的全面列表可在Github上找到。
当前的大型自回归模型能够生成高质量、高分辨率的图像,但这些模型在推断过程中需要进行数百甚至数千次的下一个标记预测,导致耗时较长。在现有研究中,Jacobi解码,一种迭代并行解码算法,被用于加速自回归生成,并且可以在无需训练的情况下执行。然而,Jacobi解码依赖于确定性标准来确定迭代的收敛性。因此,它适用于贪婪解码,但与基于抽样的解码不兼容,而后者对于当前自回归文本到图像生成中的视觉质量和多样性至关重要。本文提出了一种无需训练的概率并行解码算法,名为推测Jacobi解码(SJD),用于加速自回归文本到图像生成。通过引入概率收敛标准,我们的SJD加速了自回归文本到图像生成的推断过程,同时保持了基于抽样的标记解码中的随机性,使模型能够生成多样化的图像。具体来说,SJD促使模型在每个步骤预测多个标记,并根据概率标准接受标记,使模型能够比传统的下一个标记预测范式更快地生成图像。我们还研究了利用视觉数据的空间局部性的标记初始化策略,以在特定情况下进一步提高加速比。我们对多个自回归文本到图像生成模型进行了我们提出的SJD实验,展示了模型加速的有效性,同时不牺牲视觉质量。
最近,文本到纹理生成引起了越来越多的关注,但现有方法往往存在视角不一致、明显接缝以及纹理与底层网格不对齐的问题。在本文中,我们提出了一种稳健的文本到纹理方法,用于生成与网格对齐一致且无缝的纹理。我们的方法利用最先进的2D扩散模型,包括SDXL和多个ControlNets,来捕捉生成纹理中的结构特征和复杂细节。该方法还采用了对称视角合成策略,结合区域提示来增强视角一致性。此外,它引入了新颖的纹理混合和软修补技术,显著减少了接缝区域。大量实验证明,我们的方法优于现有的最先进方法。
传统上,在语言模型中对概念擦除的评估缺乏全面的框架,导致对擦除方法有效性的评估不完整。我们提出了一个以三个关键标准为中心的评估范式:清白性(完全知识移除)、无缝性(保持条件流畅生成)和特异性(保留无关任务表现)。我们的评估指标自然地促进了“语言记忆擦除”(ELM)的开发,这是一种旨在解决所有三个维度的新方法。ELM利用有针对性的低秩更新来改变擦除概念的输出分布,同时保留整体模型功能,包括在提示擦除概念时的流畅性。我们展示了ELM在生物安全、网络安全和文学领域擦除任务上的功效。比较分析显示,ELM在我们提出的指标上取得了卓越的表现,包括在擦除主题评估、生成流畅性、无关基准上的准确性以及对抗性攻击下的稳健性方面接近随机分数。我们的代码、数据和训练模型可在https://elm.baulab.info 获取。
最近对大型编程语言模型(Code Large Language Models,CodeLLMs)的研究主要集中在开放式代码生成任务上,通常忽略了代码理解和领悟的关键方面。为了弥合这一差距,我们提出了CodeMMLU,这是一个全面的多项选择问答基准,旨在评估LLMs中软件和代码理解的深度。CodeMMLU包括来自不同领域的超过10,000个问题,涵盖了诸如代码分析、缺陷检测和跨多种编程语言的软件工程原则等任务。与传统基准不同,CodeMMLU评估模型推理代码的能力,而不仅仅是生成代码,从而提供对它们对复杂软件概念和系统的掌握更深入的见解。我们的广泛评估显示,即使是最先进的模型在面对CodeMMLU时也面临着重大挑战,突显了超越代码生成的理解能力方面的不足。通过强调代码理解与有效生成之间的关键关系,CodeMMLU作为推进AI辅助软件开发的重要资源,最终旨在创建更可靠和能力更强的编码助手。
现实生活中的机器人导航不仅仅涉及到达目的地;它需要在解决特定场景目标的同时优化移动。人类表达这些目标的直观方式是通过抽象线索,如口头命令或粗略草图。这种人类引导可能缺乏细节或带有噪音。尽管如此,我们期望机器人按照预期进行导航。为了使机器人能够理解并执行这些抽象指令,符合人类期望,它们必须与人类共享基本导航概念的共同理解。为此,我们引入了CANVAS,这是一个结合视觉和语言指令的常识感知导航新框架。它的成功源于模仿学习,使机器人能够从人类导航行为中学习。我们提出了COMMAND,这是一个包含人类注释的导航结果的全面数据集,涵盖48小时和219公里,旨在训练在模拟环境中进行常识感知导航的系统。我们的实验表明,CANVAS在所有环境中均优于强大的基于规则的系统ROS NavStack,展现出在嘈杂指令下的卓越性能。值得注意的是,在果园环境中,ROS NavStack记录了0%的总成功率,而CANVAS实现了67%的总成功率。CANVAS还与人类演示和常识约束紧密对齐,即使在未知环境中也是如此。此外,CANVAS的实际部署展示了令人印象深刻的Sim2Real转移,总成功率达到69%,突显了从模拟环境中学习人类演示对实际应用的潜力。
填充中间(FIM)已经成为代码语言模型的重要组成部分,能够在给定左右上下文的情况下生成缺失的代码。然而,目前的FIM训练范式重新排列原始训练序列,然后执行常规的下一个标记预测(NTP),通常导致模型难以生成与周围上下文平滑对齐的内容。至关重要的是,尽管现有作品依赖基于规则的后处理来规避这一弱点,但这些方法在开放域代码补全任务中并不实用,因为它们依赖于限制性的、特定于数据集的假设(例如,生成与地面真实中相同数量的行)。此外,在没有这些不切实际的假设的情况下,模型在FIM任务上的性能会显著下降。 我们假设仅靠NTP是不足以让模型学会基于远程右上下文进行有效规划,这是成功进行代码填充的关键因素。为了克服这一点,我们提出了“视野长度预测”(HLP),这是一种新颖的训练目标,教导模型在每一步预测剩余中间标记的数量(即,视野长度)。HLP通过前瞻规划推进了FIM,使模型能够在任意左右上下文中固有地学习填充边界,而无需依赖特定于数据集的后处理。我们在不同模型和规模上的评估显示,HLP在各种基准测试中显著提高了FIM性能,相对提高了高达24%,跨文件级和存储库级,而且无需使用不切实际的后处理方法。此外,通过HLP获得的增强规划能力提升了模型在代码推理上的性能。重要的是,HLP只带来微不足道的训练开销,且没有额外的推理成本,确保其在实际场景中的实用性。
股市预测长期以来一直是一个极具挑战性的问题,这是因为股市固有的高波动性和低信息噪声比。基于机器学习或深度学习的现有解决方案通过采用单一模型在整个股票数据集上训练,以生成各类股票的预测,展现出卓越的性能。然而,由于股票风格和市场趋势存在显著变化,单一端到端模型难以完全捕捉这些风格化股票特征的差异,导致对所有类型股票的预测相对不准确。本文提出了MIGA,一种新颖的专家混合与组聚合框架,旨在通过动态切换不同风格专家,为不同风格的股票生成专业化预测。为促进MIGA中不同专家之间的合作,我们提出了一种新颖的内部组关注架构,使同一组内的专家共享信息,从而提升所有专家的整体性能。结果表明,MIGA在包括沪深300指数、中证500指数和中证1000指数在内的三个中国股指基准上明显优于其他端到端模型。值得注意的是,MIGA-Conv在沪深300指数基准上达到了24%的超额年回报,超过了之前最先进模型8%的绝对值。此外,我们对股市预测中的专家混合进行了全面分析,为未来研究提供了宝贵的见解。
尽管深度学习在非结构化数据领域占据主导地位,但基于树的方法,如随机森林(RF)和梯度提升决策树(GBDT),仍然是处理表格数据中的判别任务的主力军。我们探讨了这些流行算法的生成扩展,重点是明确地对数据密度进行建模(直至归一化常数),从而使其能够除了抽样之外还能应用于其他任务。作为我们的主要贡献,我们提出了一种基于能量的生成增强算法,类似于流行软件包(如XGBoost)中实现的二阶增强。我们表明,尽管生成了一个能够处理任何输入变量上推理任务的生成模型,我们提出的算法在许多真实世界的表格数据集上可以实现与GBDT类似的判别性能,优于其他生成方法。同时,我们还展示它在抽样方面与基于神经网络的模型具有竞争力。
视频详细字幕是一个关键任务,旨在生成视频内容的全面连贯的文本描述,有利于视频理解和生成。在本文中,我们提出了基于大型多模态模型的视频字幕生成器AuroraCap。我们采用了最简单的架构设计,没有额外的参数用于时间建模。为了解决由于漫长视频序列导致的开销,我们实现了令牌合并策略,减少输入视觉令牌的数量。令人惊讶的是,我们发现这种策略几乎没有性能损失。AuroraCap在各种视频和图像字幕基准测试中表现出优越性能,例如,在Flickr30k上获得了88.9的CIDEr,超过了GPT-4V(55.3)和Gemini-1.5 Pro(82.2)。然而,现有的视频字幕基准测试仅包含简单描述,由几十个词组成,这限制了该领域的研究。因此,我们开发了VDC,一个包含一千多个精心注释的结构化字幕的视频详细字幕基准测试。此外,我们提出了一个新的LLM辅助度量VDCscore,用于改进评估,采用分而治之的策略,将长字幕评估转化为多个短问题-答案对。通过人类Elo排名的帮助,我们的实验表明,这一基准测试更好地与视频详细字幕质量的人类判断相关。
由于需要人工劳动来创建多样化的仿真任务和场景,目前机器人仿真仍然具有挑战性,难以扩展。受训于仿真的策略也面临可扩展性问题,因为许多从仿真到实际的方法侧重于单一任务。为了解决这些挑战,本研究提出了GenSim2,这是一个可扩展的框架,利用具有多模态和推理能力的编码LLMs来创建复杂和逼真的仿真任务,包括具有关节对象的长视程任务。为了自动地大规模生成这些任务的示范数据,我们提出了能够在对象类别内泛化的规划和RL求解器。该流程可以为多达100个关节任务生成数据,涉及200个对象,并减少了所需的人工工作。为了利用这些数据,我们提出了一种有效的多任务语言条件策略架构,名为本体感知点云变换器(PPT),它从生成的示范中学习,并展示了强大的从仿真到实际的零样本转移。结合所提出的流程和策略架构,我们展示了GenSim2的一个有前途的用途,即生成的数据可以用于零样本转移或与真实收集的数据共同训练,从而将策略性能提高了20%,相较于仅在有限真实数据上训练。