每日精选AI研究论文及翻译
想象一位开发人员只能修改他们的最后一行代码,他们需要多少次才能在正确之前从头开始编写一个函数?用于从自然语言生成代码的自回归模型具有类似的限制:它们不容易允许重新考虑先前生成的标记。我们引入了CodeFusion,一个预训练的扩散代码生成模型,通过迭代地对编码的自然语言进行去噪来解决这个限制。我们在Bash、Python和Microsoft Excel条件格式(CF)规则的自然语言到代码生成任务上评估了CodeFusion。实验结果显示,CodeFusion(7500万参数)在一致性最佳准确率方面与最先进的自回归系统(3500万至1750亿参数)表现相当,并且在前三和前五准确率方面胜过它们,这是由于其在多样性与质量之间更好的平衡。
本文探讨了用于高效训练大型语言模型(LLMs)的FP8低比特数据格式。我们的关键见解是,在LLM训练中,大多数变量(如梯度和优化器状态)可以使用低精度数据格式,而不会影响模型准确性,并且无需更改超参数。具体而言,我们提出了一种新的FP8自动混合精度框架,用于训练LLMs。该框架提供三个FP8利用级别,以简化LLMs的混合精度和分布式并行训练。它逐步以增量方式整合8位梯度、优化器状态和分布式学习。实验结果表明,在H100 GPU平台上训练GPT-175B模型期间,我们的FP8混合精度训练框架不仅实现了实际内存使用量的显着减少42%,而且比广泛采用的BF16框架(即Megatron-LM)快64%,超过了Nvidia Transformer Engine 17%的速度。这在很大程度上降低了大型基础模型的训练成本。此外,我们的FP8混合精度训练方法是通用的。它可以无缝应用于其他任务,如LLM指令调整和带有人类反馈的强化学习,从而节省微调费用。我们的FP8低精度训练框架已在{https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}开源。
我们提出了ControlLLM,这是一个新颖的框架,使大型语言模型(LLMs)能够利用多模态工具来解决复杂的现实世界任务。尽管LLMs表现出色,但它们仍然在工具调用方面存在困难,原因包括用户提示模糊、工具选择和参数化不准确,以及工具调度低效。为了克服这些挑战,我们的框架包括三个关键组件:(1)任务分解器,将复杂任务分解为具有明确定义输入和输出的清晰子任务;(2)Thoughts-on-Graph(ToG)范式,在预先构建的工具图上搜索最佳解决方案路径,该图指定了不同工具之间的参数和依赖关系;以及(3)执行引擎,具有丰富的工具箱,解释解决方案路径并在不同计算设备上高效运行工具。我们在涉及图像、音频和视频处理的各种任务上评估了我们的框架,展示了与现有方法相比其卓越的准确性、效率和多功能性。
在设备端学习和高效微调实现了持续且保护隐私的定制化(例如,在个性化数据上对大型语言模型进行本地微调)。然而,现有的训练框架是为云服务器设计的,配备强大的加速器(例如,GPU、TPU),缺乏针对边缘学习的优化,面临资源有限和边缘硬件多样性挑战。我们介绍了PockEngine:一种微小、稀疏且高效的引擎,可在各种边缘设备上实现微调。PockEngine支持稀疏反向传播:它修剪反向图并稀疏更新模型,节省内存并降低延迟,同时保持模型质量。其次,PockEngine是首先编译的:整个训练图(包括前向、反向和优化步骤)在编译时派生,减少运行时开销并提供图转换机会。PockEngine还集成了丰富的训练图优化集,可以进一步加速训练成本,包括操作符重排序和后端切换。PockEngine支持多样的应用、前端和硬件后端:它灵活地编译和调整在PyTorch/TensorFlow/Jax中定义的模型,并将二进制部署到移动CPU/GPU/DSP。我们在视觉模型和大型语言模型上评估了PockEngine。PockEngine在现成的TensorFlow(树莓派)上实现了高达15倍的加速,反向传播节省了5.6倍的内存(Jetson AGX Orin)。值得注意的是,PockEngine使得在NVIDIA Jetson AGX Orin上对LLaMav2-7B进行微调达到每秒550个标记,比PyTorch快7.9倍。
大型语言模型(LLMs)在自然语言任务方面表现出潜力,但在直接应用于金融等复杂领域时却遇到困难。LLMs在推理和整合所有相关信息方面存在困难。我们提出了一种以数据为中心的方法,以使LLMs更好地处理金融任务。我们的关键见解是,与其一次性向LLM超载所有内容,预处理和预理解数据更为有效。我们使用多任务提示驱动的微调来创建金融LLM(FLLM),以实现数据预处理和预理解。然而,每个任务的标记数据都很稀缺。为了克服手动注释成本,我们采用推断增强推理(AAR)来通过修改FLLM自身输出的伪标签自动生成训练数据。实验证明,我们基于数据的FLLM与AAR明显优于为原始文本设计的基准金融LLMs,在金融分析和解释任务上达到了最先进水平。我们还开源了一个新的金融分析和解释基准。我们的方法为释放LLMs在复杂现实世界领域潜力提供了一个有前途的途径。
我们提出了一个框架,用于自动测量大型语言模型(LLMs)及相关产品和服务的负责任人工智能(RAI)指标。我们的自动测量LLMs造成的伤害的框架建立在现有技术和社会技术专业知识的基础上,并利用了GPT-4等最先进的LLMs的能力。我们使用这一框架来运行几个案例研究,调查不同LLMs如何可能违反一系列与RAI相关的原则。该框架可与领域特定的社会技术专业知识一起使用,以便未来为新的伤害领域创建测量标准。通过实施这一框架,我们旨在促进更先进的伤害测量工作,并进一步推动LLMs的负责任使用。
我们引入了一种3D感知扩散模型 ZeroNVS,用于野外场景的单图像新视角合成。现有方法针对带有遮罩背景的单个对象设计,我们提出了新技术来解决野外多对象场景和复杂背景带来的挑战。具体而言,我们在捕获以对象为中心、室内和室外场景的多种数据源的基础上训练了一个生成先验。为了解决由数据混合引入的深度尺度模糊等问题,我们提出了一种新颖的相机条件参数化和归一化方案。此外,我们观察到得分蒸馏采样(SDS)在蒸馏360度场景时往往会截断复杂背景的分布,因此提出了“SDS锚定”来改善合成新视角的多样性。我们的模型在DTU数据集的LPIPS上取得了新的最先进结果,甚至胜过专门针对DTU进行训练的方法。我们进一步将具有挑战性的 Mip-NeRF 360 数据集改编为单图像新视角合成的新基准,并在这一设置中展现出强大的性能。我们的代码和数据可在 http://kylesargent.github.io/zeronvs/ 获取。
神经辐射场(NeRFs)已被证明是强大的3D表示形式,能够高质量地合成复杂场景的新视角。虽然NeRFs已应用于图形、视觉和机器人领域,但缓慢的渲染速度和特征性视觉伪影问题阻碍了其在许多应用场景中的采用。在这项工作中,我们研究将自动编码器(AE)与NeRF相结合,其中渲染潜在特征(而非颜色),然后进行卷积解码。由此产生的潜在空间NeRF可以比标准颜色空间NeRF产生更高质量的新视角,因为AE可以纠正某些视觉伪影,同时渲染速度提高了三倍以上。我们的工作与其他改进NeRF效率的技术是正交的。此外,通过缩小AE架构,我们可以控制效率和图像质量之间的权衡,仅在性能略微下降的情况下实现超过13倍的更快渲染速度。我们希望我们的方法能够成为下游任务的高效而高保真的3D场景表示的基础,特别是在需要保持可区分性的许多需要持续学习的机器人场景中。
我们展示了大型语言模型(LLMs)可以被调整为适用于具身视觉任务的通用策略。我们的方法称为大型语言模型强化学习策略(LLaRP),它调整了一个预训练的冻结LLM,以接受文本指令和视觉自我中心观察作为输入,并直接在环境中输出动作。通过强化学习,我们训练LLaRP仅通过环境交互来观察和行动。我们展示LLaRP对任务指令的复杂释义具有鲁棒性,并且可以推广到需要新颖最佳行为的新任务。特别是,在1,000个未见任务中,它实现了42%的成功率,是其他常见学习基线或LLMs的零-shot应用成功率的1.7倍。最后,为了帮助社区研究以语言为条件的、大规模多任务的具身人工智能问题,我们发布了一个新的基准,语言重排,包括150,000个训练任务和1,000个测试任务,用于语言条件的重排。LLaRP在未见的语言重排指令中的视频示例可在https://llm-rl.github.io中找到。
大型语言模型是在互联网上大量文本的基础上进行训练的,这些文本包含关于世界的事实和误导性信息。语言模型能否在这些矛盾数据中区分真实和虚假? 在扩展了对LLMs可以模拟不同生成语料库的代理的观点后,我们假设它们可以通过建模真实人设来对真实文本进行聚类:一组可能生成真实文本并具有相似特征的代理。例如,值得信赖的来源如维基百科和科学通常使用正式的写作风格并提出一致的主张。通过建模这个人设,LLMs可以将真实性概括到每个代理生成训练文本的特定上下文之外。例如,模型可以推断“维基百科”代理在只由“科学”生成的主题上会表现真实,因为它们共享一个人设。我们首先通过两点观察展示了人设假设的证据:(1)我们可以在生成之前探测模型的答案是否真实;(2)在一组事实上微调模型会提高其在未见主题上的真实性。接下来,通过算术作为一个合成环境,我们展示了语言模型可以区分真假陈述,并在代理之间概括真实性;但前提是训练数据中的代理共享一个能够创造真实人设的真实生成过程。总的来说,我们的研究结果表明模型可以利用数据中的分层结构来学习真实性等抽象概念。