每日精选AI研究论文及翻译
大型编程语言模型(Code LLM)蓬勃发展。每周都有新的强大模型发布,在代码生成任务上展现出卓越的性能。已经提出了各种方法来提升预训练的Code LLM的代码生成性能,如监督微调、指导微调、强化学习等。本文提出了一种新颖的RRTF(Rank Responses to align Test&Teacher Feedback)框架,可以有效且高效地提升预训练的大型编程语言模型的代码生成能力。在这一框架下,我们提出了PanGu-Coder2,在OpenAI HumanEval基准测试中取得了62.20%的pass@1。此外,通过对CoderEval和LeetCode基准测试的广泛评估,我们展示了PanGu-Coder2始终优于所有先前的Code LLM。
我们介绍了TransNormerLLM,这是第一个基于线性注意力的大型语言模型(LLM),在准确性和效率方面均优于传统的基于softmax注意力的模型。TransNormerLLM是基于先前的线性注意力架构TransNormer发展而来,通过包括位置嵌入、线性注意力加速、门控机制、张量归一化、推理加速和稳定化等先进修改来实现。具体来说,我们使用LRPE结合指数衰减来避免注意力稀释问题,同时允许模型保留标记之间的全局交互。此外,我们提出了闪电注意力,这是一种先进技术,能够将线性注意力的运行时间加速超过两倍,并将内存使用减少了显著的四倍。为了进一步提升TransNormer的性能,我们利用门控机制来平滑训练,并采用新的张量归一化方案来加速模型,实现了超过20%的显著加速。此外,我们开发了一种稳健的推理算法,确保数值稳定性和一致的推理速度,无论序列长度如何,都展现出在训练和推理阶段都具有出色效率的优势。可扩展性是我们模型设计的核心,使其能够无缝部署在大规模集群上,并便于扩展到更加庞大的模型,同时保持出色的性能指标。通过一系列在我们自行收集的语料库上的全面实验,我们对模型设计进行了严格验证,该语料库规模超过6TB,包含超过2万亿个标记。为了确保数据质量和相关性,我们实施了一种新的自我清理策略来过滤我们收集的数据。我们的预训练模型将会发布,以促进社区对高效LLM的进步。
我们提出了一个机器人技能习得框架,该框架旨在:1)高效扩展语言标记机器人数据的生成,并且2)有效地将这些数据提炼成稳健的多任务语言条件的视觉-运动策略。对于(1),我们使用大型语言模型(LLM)来引导高层规划,并使用基于采样的机器人规划器(例如运动或抓取采样器)来生成多样且丰富的操作轨迹。为了增强数据收集过程的稳健性,LLM还推断出每个任务的成功条件的代码片段,同时使数据收集过程能够检测失败并重试,以及自动标记成功/失败的轨迹。对于(2),我们将扩散策略单任务行为克隆方法扩展到具有语言条件的多任务设置。最后,我们提出了一个新的多任务基准,涵盖五个领域的18个任务,用于测试长期行为、常识推理、工具使用和直觉物理学。我们发现,我们提炼的策略成功地学习了其数据收集策略中的稳健重试行为,同时在五个领域中平均提高了34.8%的绝对成功率。基准测试、代码和定性结果可在我们的网站https://www.cs.columbia.edu/~huy/scalingup/ 上找到。
视觉目标跟踪是计算机视觉中的一项基本视频任务。最近,感知算法显著增强的能力使得单/多目标和基于框/蒙版的跟踪得以统一。其中,Segment Anything Model(SAM)引起了广泛关注。在本报告中,我们提出了HQTrack,一个用于在视频中高质量跟踪任何物体的框架。HQTrack 主要由视频多目标分割器(VMOS)和蒙版优化器(MR)组成。给定视频初始帧中要跟踪的物体,VMOS 将物体蒙版传播到当前帧。由于 VMOS 是在几个最接近的视频目标分割(VOS)数据集上训练的,对于复杂和角落场景的泛化能力有限,因此在这个阶段的蒙版结果并不够准确。为了进一步提高跟踪蒙版的质量,我们采用了预训练的 MR 模型来优化跟踪结果。作为对我们范例有效性的有力证明,在不使用任何技巧,如测试时数据增强和模型集成的情况下,HQTrack 在视觉目标跟踪和分割(VOTS2023)挑战中排名第二。代码和模型可在 https://github.com/jiawen-zhu/HQTrack 找到。
医学本质上是多模态的,具有丰富的数据形式,涵盖文本、影像、基因组学等。灵活编码、整合和解释这些数据的广义生物医学人工智能(AI)系统,在规模上可以潜在地实现从科学发现到护理交付等具有影响力的应用。为了促进这些模型的发展,我们首先策划了MultiMedBench,这是一个新的多模态生物医学基准。MultiMedBench包括14个不同的任务,如医学问题回答、乳腺X线摄影和皮肤科图像解释、放射学报告生成和总结,以及基因组变异调用等。然后,我们介绍了Med-PaLM多模态(Med-PaLM M),这是我们的广义生物医学AI系统的概念验证。Med-PaLM M是一个大型多模态生成模型,可以灵活地编码和解释包括临床语言、影像和基因组在内的生物医学数据,使用相同的模型权重。Med-PaLM M在所有MultiMedBench任务上达到了与或超过现有技术水平的性能,往往超过专家模型很大幅度。我们还报告了对新颖医学概念和任务的零样本泛化示例,任务间的正迁移学习,以及新兴的零样本医学推理。为了进一步探究Med-PaLM M的能力和局限性,我们进行了放射科医师对模型生成(和人类)胸部X线报告的评估,并观察到在不同模型规模下鼓舞人心的表现。在对246个回顾性胸部X光片进行并排排名时,临床医生在多达40.50%的情况下对Med-PaLM M的报告表达了与放射科医师相比的偏好,表明潜在的临床实用性。尽管需要大量工作来验证这些模型在实际用例中的应用,但我们的结果代表了通向发展广义生物医学AI系统的里程碑。
最近,文本到3D生成引起了广泛关注,这得益于在数十亿图像文本对上训练的2D扩散模型。现有方法主要依赖于分数蒸馏,以利用2D扩散先验来监督3D模型的生成,例如NeRF。然而,分数蒸馏容易出现视角不一致问题,而隐式NeRF建模也可能导致任意形状,从而导致不够逼真和不可控的3D生成。在这项工作中,我们提出了一个灵活的Points-to-3D框架,通过从2D和3D扩散模型中提炼知识,弥合稀疏但自由可用的3D点与逼真形状可控的3D生成之间的差距。Points-to-3D的核心思想是引入可控稀疏3D点来指导文本到3D的生成。具体而言,我们使用从3D扩散模型Point-E生成的稀疏点云作为几何先验,以单个参考图像为条件。为了更好地利用稀疏3D点,我们提出了一种高效的点云引导损失,以自适应地驱动NeRF的几何形状与稀疏3D点的形状对齐。除了控制几何形状,我们提出了优化NeRF以获得更具视角一致性的外观。具体而言,我们对公开可用的2D图像扩散模型ControlNet进行分数蒸馏,以文本和学习的紧凑几何深度图为条件。定性和定量比较表明,Points-to-3D提高了视角一致性,并实现了良好的形状可控性,用于文本到3D生成。Points-to-3D为用户提供了改进和控制文本到3D生成的新途径。
对于艺术家或平面设计师来说,场景的空间布局是一个关键的设计选择。然而,现有的文本到图像扩散模型在整合空间信息方面提供的支持有限。本文引入了复合扩散作为一种艺术家生成高质量图像的手段,通过从子场景中进行组合。艺术家可以通过灵活的自由形式分段布局指定这些子场景的排列。他们可以主要使用自然文本描述每个子场景的内容,并可以通过参考图像或控制输入(如线条艺术、涂鸦、人体姿势、canny边缘等)进行补充描述。 我们提供了一种全面且模块化的复合扩散方法,使得生成、组合和协调子场景的方式更加多样化。此外,我们希望评估复合图像在图像质量和实现艺术家意图方面的有效性。我们认为现有的图像质量度量缺乏对图像复合的整体评估。为解决这一问题,我们提出了特别适用于复合生成的新颖质量标准。 我们相信我们的方法提供了一种直观的艺术创作方法。通过广泛的用户调查、定量和定性分析,我们展示了它如何实现对图像生成的空间、语义和创意控制。此外,我们的方法无需重新训练或修改基础扩散模型的架构,可以与经过微调的模型插拔式地配合使用。
我们研究通过从用户和已部署模型之间的自然对话中学习来改进社交对话代理,而无需额外的注释。为了隐式衡量机器生成话语的质量,我们利用诸如用户回复长度、情感以及在收集的对话片段中未来人类话语的反应等信号。我们的实验使用了来自BlenderBot(Xu等,2023年)的公开发布的部署数据。人类评估表明,我们的新模型在基准回复上有所改进;然而,我们发现一些代理信号也可能导致更多具有不良特性的生成。例如,优化对话长度可能导致与基准相比更具争议性或不友好的生成,而优化积极情感或反应则可以减少这些行为。
最近,视觉Transformer、大卷积核卷积神经网络(CNNs)和多层感知器(MLPs)在广泛的视觉任务中取得了显著成功,这要归功于它们在全局范围内的有效信息融合。然而,它们的高效部署,特别是在移动设备上,仍然面临显著挑战,这是由于自注意机制、大卷积核或全连接层的高计算成本所致。在这项工作中,我们将传统卷积定理应用于深度学习,以解决这一问题,并揭示自适应频率滤波器可以作为高效的全局令牌混合器。基于这一见解,我们提出了自适应频率滤波(AFF)令牌混合器。这种神经算子通过傅里叶变换将潜在表示转换到频率域,并通过逐元素乘法执行语义自适应频率滤波,数学上等同于在原始潜在空间中使用动态卷积核进行令牌混合操作,卷积核的大小与该潜在表示的空间分辨率一样大。我们将AFF令牌混合器作为主要神经算子来构建轻量级神经网络,命名为AFFNet。大量实验证明了我们提出的AFF令牌混合器的有效性,并表明AFFNet在广泛的视觉任务(包括视觉识别和密集预测任务)上相较于其他轻量级网络设计实现了更优越的准确性和效率的折衷。
最近几年,轨迹预测领域取得了显著进展,部分原因是由于发布了大量面向自动驾驶车辆(AVs)和行人运动跟踪的大规模真实世界人类轨迹数据集。虽然这些数据集对社区来说是一大福音,但它们各自使用定制和独特的数据格式和API,使得研究人员难以在多个数据集上训练和评估方法。为了解决这个问题,我们提出了trajdata:一个统一的接口,用于多个人类轨迹数据集。在其核心,trajdata提供了一个简单、统一和高效的轨迹和地图数据表示和API。作为其功能的演示,在这项工作中,我们对现有的轨迹数据集进行了全面的实证评估,为用户提供了对支撑当前大部分行人和AV运动预测研究的数据的深入了解,并根据这些见解提出了未来数据集的建议。trajdata采用宽松许可(Apache 2.0)并可在线访问https://github.com/NVlabs/trajdata。