每日精选AI研究论文及翻译
尽管大型语言模型(LLMs)具有显著的能力,但由于完全依赖其所包含的参数化知识,通常会产生包含事实不准确性的回复。检索增强生成(RAG)是一种临时方法,通过检索相关知识来增强LM,从而减少这些问题。然而,不加区分地检索和合并固定数量的检索段落,无论检索是否必要或段落是否相关,都会降低LM的多功能性,或导致无益的响应生成。我们引入了一种名为自我反思检索增强生成(Self-RAG)的新框架,通过检索和自我反思来增强LM的质量和事实性。我们的框架训练一个单一的任意LM,可以自适应地按需检索段落,并使用称为反思标记的特殊标记生成和反思检索的段落及其自身生成。生成反思标记使LM在推理阶段可控,使其能够根据不同的任务需求调整其行为。实验表明,Self-RAG(7B和13B参数)在各种任务上明显优于最先进的LLMs和检索增强模型。具体而言,Self-RAG在开放领域QA、推理和事实验证任务上优于ChatGPT和检索增强的Llama2-chat,并且在提高长篇生成的事实性和引用准确性方面相对于这些模型显示出显著的增益。
AI赋能音乐处理是一个多样化的领域,涵盖了数十种任务,从生成任务(例如音色合成)到理解任务(例如音乐分类)。对于开发人员和业余爱好者来说,要掌握所有这些任务以满足他们在音乐处理方面的需求是非常困难的,尤其是考虑到音乐数据的表示方式以及不同任务在各平台上模型适用性之间的巨大差异。因此,有必要构建一个系统来组织和整合这些任务,从而帮助从业者自动分析他们的需求,并调用合适的工具作为解决方案来满足他们的需求。受到大型语言模型(LLMs)在任务自动化方面的最近成功的启发,我们开发了一个名为MusicAgent的系统,该系统整合了众多与音乐相关的工具和一个自主工作流程来满足用户需求。更具体地说,我们构建了1)从不同来源(包括Hugging Face、GitHub和Web API等)收集工具的工具集;2)由LLMs(例如ChatGPT)赋能的自主工作流程,用于组织这些工具,并自动将用户请求分解为多个子任务,并调用相应的音乐工具。该系统的主要目标是使用户摆脱AI音乐工具的复杂性,让他们专注于创造性方面。通过赋予用户轻松组合工具的自由,该系统提供了一个无缝且丰富的音乐体验。
最近的文本到三维生成方法通过图像扩散模型和优化策略的进展取得了令人印象深刻的三维内容创作能力。然而,当前方法在为语义复杂的提示生成正确的三维内容方面存在困难,即描述多个相互作用对象并具有不同属性的提示。在本研究中,我们提出了一个名为Progressive3D的通用框架,将整个生成过程分解为一系列局部渐进编辑步骤,以为复杂提示创建精确的三维内容,并将内容更改限制为仅发生在每个编辑步骤中由用户定义的区域提示确定的区域。此外,我们提出了一种重叠语义组件抑制技术,以鼓励优化过程更多地关注提示之间的语义差异。大量实验证明,所提出的Progressive3D框架为具有复杂语义的提示生成精确的三维内容,并且适用于由不同三维表示驱动的各种文本到三维方法。