每日精选AI研究论文及翻译
随着深度生成模型的发展,音乐生成引起了越来越多的关注。然而,在文本描述条件下生成音乐,即文本到音乐,由于音乐结构的复杂性和高采样率要求,仍然具有挑战性。尽管这一任务的重要性,但目前的生成模型在音乐质量、计算效率和泛化能力方面存在局限性。本文介绍了JEN-1,这是一个用于文本到音乐生成的通用高保真模型。JEN-1是一个融合自回归和非自回归训练的扩散模型。通过上下文学习,JEN-1执行各种生成任务,包括文本引导的音乐生成、音乐修补和延续。评估表明,JEN-1在文本音乐对齐和音乐质量方面表现优越,同时保持计算效率。我们的演示可在http://futureverse.com/research/jen/demos/jen1 上找到。
随着大型语言模型的不断改进,人们对利用这些模型能力来改进其输出的技术越来越感兴趣。在这项工作中,我们介绍了Shepherd,这是一个专门调整以批判回应并提出改进建议的语言模型,扩展了未调整模型的能力,能够识别各种错误并提供改正建议。我们方法的核心是一个高质量的反馈数据集,我们从社区反馈和人工注释中精心筛选而来。尽管Shepherd规模较小(70亿参数),但其批评要么与ChatGPT等已建立模型的批评相当,要么更受青睐。在使用GPT-4进行评估时,Shepherd在与竞争对手的比较中达到了平均胜率为53-87%。在人类评估中,Shepherd严格优于其他模型,并且平均与ChatGPT持平。
最近对大型语言模型(LLM)的进展展示了它们多样的能力。我们提出了一种新颖的算法,即分阶段推测解码,以加速在小批量、设备端场景下的LLM推断。我们通过改进先前的推测解码工作来解决小批量推断的低算术强度问题。首先,我们将推测批量重组为一棵树,从而降低生成成本并增加每批次的预期标记数。其次,我们添加第二阶段的推测解码。综合起来,我们将单批次解码延迟缩短了3.16倍,使用762M参数的GPT-2-L模型,同时完美保持输出质量。
在自动驾驶中,三维物体检测中的假阴性(FN),例如漏检行人、车辆或其他障碍物,可能导致潜在危险情况。尽管致命,但这个问题在许多当前的三维检测方法中研究不足。在这项工作中,我们提出了Hard Instance Probing(HIP),这是一个通用流程,以多阶段方式识别FN,并引导模型专注于挖掘困难实例。对于三维物体检测,我们将这种方法实例化为FocalFormer3D,这是一个简单而有效的检测器,擅长挖掘困难物体并提高预测召回率。FocalFormer3D具有多阶段查询生成,以发现困难物体,并具有盒级变换器解码器,以有效区分大量物体候选。在nuScenes和Waymo数据集上的实验结果验证了FocalFormer3D的卓越性能。这种优势在激光雷达和多模态设置中的检测和跟踪方面表现出色。值得注意的是,FocalFormer3D在nuScenes检测基准上实现了70.5 mAP和73.9 NDS,而nuScenes跟踪基准显示72.1 AMOTA,在nuScenes激光雷达排行榜上均排名第一。我们的代码可在https://github.com/NVlabs/FocalFormer3D 获取。