每日精选AI研究论文及翻译
像GPT-4o这样的模型使得用户能够通过语音与大型语言模型(LLMs)进行实时交互,与传统基于文本的交互相比,显著提升了用户体验。然而,目前对如何基于开源LLMs构建语音交互模型的探索仍然不足。为了解决这一问题,我们提出了LLaMA-Omni,这是一种专为与LLMs进行低延迟和高质量语音交互而设计的新型模型架构。LLaMA-Omni集成了一个预训练的语音编码器、一个语音适配器、一个LLM和一个流式语音解码器。它消除了对语音转录的需求,并且可以同时从语音指令直接生成文本和语音响应,具有极低的延迟。我们基于最新的Llama-3.1-8B-Instruct模型构建了我们的模型。为了使模型与语音交互场景相匹配,我们构建了一个名为InstructS2S-200K的数据集,其中包括20万个语音指令和相应的语音响应。实验结果表明,与先前的语音-语言模型相比,LLaMA-Omni在内容和风格上提供了更好的响应,响应延迟低至226毫秒。此外,仅需4个GPU,训练LLaMA-Omni不到3天的时间,为未来高效开发语音-语言模型铺平了道路。
检索增强生成(RAG)已经成为一种常见范式,用于在私人和最新知识库旁边使用大型语言模型(LLMs)。在这项工作中,我们解决了使用LLM作为评估RAG系统生成的基于事实答案时的挑战。为了评估评估模型的校准和区分能力,我们确定了7种生成器失败模式,并引入了GroUSE(评估者的基础问答单一评分),这是一个包含144个单元测试的元评估基准。该基准显示,即使使用GPT-4作为评判者,现有的自动化RAG评估框架经常忽视重要的失败模式。 为了改进当前的自动化RAG评估框架设计,我们提出了一种新颖的流程,并发现尽管封闭模型在GroUSE上表现良好,但最先进的开源评判者并不能推广到我们提出的标准,尽管与GPT-4的判断有很强的相关性。我们的发现表明,与GPT-4的相关性是评判者模型实际性能的不完整代理,并应通过对单元测试的评估来补充精确的失败模式检测。 我们进一步展示,通过在GPT-4的推理轨迹上对Llama-3进行微调,可以显著提升其评估能力,改善与GPT-4评估的相关性以及在参考情况下的校准。
指示性表示了物体固有的潜在交互作用。对指示性的感知可以使智能体能够高效地在新环境中导航和交互。弱监督的指示性基础教导智能体指示性概念,而无需昂贵的像素级标注,而是使用外中心图像。尽管最近在弱监督的指示性基础方面取得了令人期待的结果,但仍然存在挑战,包括需要配对的外中心和自中心图像数据集,以及为单个物体进行多样指示性基础的复杂性。为了解决这些问题,我们提出了基于交互关系的弱监督指示性基础(INTRA)。与以往方法不同,INTRA将这一问题重新构建为表示学习,通过仅使用外中心图像进行对比学习来识别交互作用的独特特征,从而消除了对配对数据集的需求。此外,我们利用视觉-语言模型嵌入来灵活执行指示性基础,设计了文本条件的指示性地图生成,以反映交互关系进行对比学习,并通过文本同义词增强提高了鲁棒性。我们的方法在AGD20K、IIT-AFF、CAD和UMD等多样数据集上优于以往方法。此外,实验结果表明,我们的方法在合成图像/插图方面具有显著的领域可扩展性,并能够执行新型交互和物体的指示性基础。
音乐是人类文化不可或缺的一部分,体现了人类的智慧和创造力,其中歌曲是重要组成部分。虽然先前的研究探索了歌曲生成的各个方面,如歌唱声音、声乐作曲和乐器编曲等,但在给定歌词的情况下生成既有人声又有伴奏的歌曲仍然是一个重大挑战,阻碍了音乐生成模型在现实世界中的应用。基于这一考虑,我们提出了SongCreator,这是一个旨在解决这一挑战的歌曲生成系统。该模型具有两个新颖设计:精心设计的双序列语言模型(DSLM)用于捕捉歌曲生成的人声和伴奏信息,以及DSL模型的额外注意力掩模策略,使我们的模型能够理解、生成和编辑歌曲,适用于各种与歌曲相关的生成任务。大量实验证明了SongCreator的有效性,通过在所有八项任务上取得了最先进或具有竞争力的表现。值得注意的是,在歌词到歌曲和歌词到人声方面,它大幅超越了先前的研究。此外,它能够通过不同提示独立控制生成歌曲中人声和伴奏的声学条件,展示了其潜在的适用性。我们的样本可在https://songcreator.github.io/ 上获取。
“Foley”是电影制作中常用的术语,指的是在无声电影或视频中添加日常音效,以增强听觉体验。视频转音频(V2A)作为一种特定类型的自动foley任务,面临与音频-视觉同步相关的固有挑战。这些挑战涵盖了在输入视频和生成的音频之间保持内容一致性,以及视频中时间和响度属性的对齐。为了解决这些问题,我们构建了一个可控的视频转音频合成模型,名为“绘制音频(Draw an Audio)”,通过绘制蒙版和响度信号支持多个输入指令。为了确保合成音频与目标视频之间的内容一致性,我们引入了蒙版注意力模块(Mask-Attention Module,MAM),它利用蒙版视频指令使模型专注于感兴趣的区域。此外,我们实现了时间-响度模块(Time-Loudness Module,TLM),它使用辅助响度信号确保声音的合成与视频在响度和时间维度上保持一致。此外,我们通过注释标题提示扩展了一个大规模的V2A数据集,名为VGGSound-Caption。在两个大规模V2A数据集上进行的广泛实验验证了“绘制音频”达到了最先进水平。项目页面:https://yannqi.github.io/Draw-an-Audio/。
近年来,扩散模型的发展在图像和视频生成任务中取得了显著进展,像稳定扩散系列这样的预训练模型发挥了关键作用。受模型修剪的启发,通过消除不重要的参数减轻大型预训练模型,我们提出了一种新颖的模型微调方法,充分利用这些无效参数,使预训练模型具备新的任务特定能力。在这项工作中,我们首先研究了预训练扩散模型中参数的重要性,发现绝对值最小的10%至20%的参数对生成过程没有贡献。基于这一观察,我们提出了一种名为SaRA的方法,重新利用这些暂时无效的参数,相当于优化稀疏权重矩阵以学习任务特定知识。为了减轻过拟合,我们提出了基于核范数的低秩稀疏训练方案进行高效微调。此外,我们设计了一种新的渐进参数调整策略,充分利用重新训练/微调的参数。最后,我们提出了一种新颖的非结构化反向传播策略,在微调过程中显著减少内存成本。我们的方法增强了预训练模型在下游应用中的生成能力,并在保持模型泛化能力方面优于LoRA等传统微调方法。通过对SD模型进行微调实验证实了我们的方法,展示了显著的改进。SaRA还提供了一个实际优势,只需修改一行代码即可高效实现,并且与现有方法完全兼容。
神经辐射场(Neural Radiance Fields,NeRFs)已经彻底改变了在3D中重建静态场景和物体的方法,提供了前所未有的质量。然而,将NeRFs扩展到建模动态物体或物体关节仍然是一个具有挑战性的问题。先前的研究通过专注于部分级别的重建和物体的运动估计来解决这个问题,但它们通常依赖于关于移动部件或物体类别数量的启发式方法,这可能限制了它们的实际应用。在这项工作中,我们介绍了LEIA,一种用于表示动态3D物体的新方法。我们的方法涉及在不同的时间步长或“状态”下观察物体,并在当前状态上使用超网络来对我们的NeRF进行参数化。这种方法使我们能够为每个状态学习一个视角不变的潜在表示。我们进一步展示,通过在这些状态之间进行插值,我们可以生成以前未曾见过的3D空间中的新颖关节配置。我们的实验结果突显了我们的方法在关节化物体方面的有效性,这种方法与观察角度和关节配置无关。值得注意的是,我们的方法胜过依赖于运动信息进行关节注册的先前方法。