每日精选AI研究论文及翻译
大型语言模型(LLMs)展现出在整合多样专家模型以应对复杂的语言和视觉任务方面的巨大潜力。尽管它们在推动人工智能生成内容(AIGC)领域取得重要进展方面具有重要意义,但它们在智能音频内容创作方面的潜力尚未被探索。在这项工作中,我们解决了利用文本指导创作涵盖语音、音乐和音效的音频内容的问题。我们提出了WavJourney,这是一个利用LLMs连接各种音频模型进行音频内容生成的系统。给定一个听觉场景的文本描述,WavJourney首先促使LLMs生成一个专门用于音频叙事的结构化脚本。音频脚本包含各种音频元素,根据它们的时空关系进行组织。作为音频的概念表示,音频脚本为人类参与提供了交互式和可解释的理由。随后,音频脚本被输入到脚本编译器中,将其转换为计算机程序。程序的每一行调用一个特定任务的音频生成模型或计算操作函数(例如连接、混合)。然后执行计算机程序以获得音频生成的可解释解决方案。我们展示了WavJourney在包括科幻、教育和广播剧等各种现实场景中的实用性。WavJourney的可解释和交互式设计促进了人机共同创作在多轮对话中的发展,增强了音频制作中的创造控制和适应性。WavJourney将人类想象音频化,为多媒体内容创作开辟了新的创意途径。
低秩适应(LoRA)经常被用于微调大型语言模型(LLMs)以适用于新任务。本文研究了LoRA的组合性以实现跨任务泛化,并引入了LoraHub,这是一个战略框架,旨在有目的地组装在不同给定任务上训练的LoRA模块,以实现对未知任务的可适应性表现。通过从新任务中仅使用少量示例,LoraHub能够流畅地结合多个LoRA模块,消除了对人类专业知识的需求。值得注意的是,这种组合既不需要额外的模型参数,也不需要梯度。我们从Big-Bench Hard(BBH)基准测试中得出的实证结果表明,LoraHub可以有效地模拟在少样本场景中的上下文学习性能,无需在每个推断输入旁边提供上下文示例。我们研究的一个重要贡献是促进LoRA社区的发展,用户可以共享他们训练的LoRA模块,从而促进这些模块在新任务中的应用。我们预计这一资源将扩大对通用智能和生产中LLMs的访问,并推动进步。代码将在https://github.com/sail-sg/lorahub 上提供。
大型语言模型(LLMs)在回答问题之前,如果它们能够进行“思维链”(CoT)推理,通常表现更好,但目前尚不清楚所陈述的推理是否忠实地解释了模型实际推理的过程(即回答问题的方式)。我们通过研究CoT推理可能不忠实的假设,来检验当我们对CoT进行干预时(例如,添加错误或改写),模型预测会如何变化。我们发现,模型在预测答案时在多大程度上依赖于CoT存在着很大的差异,有时会严重依赖于CoT,而其他时候则主要忽略它。CoT的性能提升似乎并非仅仅来自于CoT在测试时的计算量增加,也不是来自于CoT特定措辞所编码的信息。随着模型变得更大更强大,我们发现在我们研究的大多数任务中,模型产生的推理更不忠实。总体而言,我们的结果表明,如果选择模型大小和任务等特定情况,CoT可以是忠实的。
随着生成式人工智能的进步,通过自然语言命令管理日常任务的自主代理的潜力变得令人兴奋。然而,目前的代理主要是在简化的合成环境中创建和测试的,严重限制了对真实世界场景的表征。在本文中,我们构建了一个用于代理命令和控制的环境,具有高度逼真和可重现性。具体而言,我们专注于在网站上执行任务的代理,并创建了一个包含四个常见领域的完全功能网站的环境:电子商务、社交论坛讨论、协作软件开发和内容管理。我们的环境配备了工具(例如地图)和外部知识库(例如用户手册),以鼓励类似人类的任务解决。基于我们的环境,我们发布了一组旨在评估任务完成功能正确性的基准任务。我们基准测试中的任务多样且长期,旨在模拟人类在互联网上经常执行的任务。我们设计并实现了几个自主代理,集成了最新的技术,如先思考后行动。结果表明,解决复杂任务具有挑战性:我们基于GPT-4的最佳代理仅实现了10.59%的端到端任务成功率。这些结果突显了对健壮代理的进一步发展的需求,当前最先进的语言模型在这些现实生活任务中表现远非完美,并且WebArena可用于衡量这种进展。我们的代码、数据、环境重现资源和视频演示可在https://webarena.dev/上公开获取。
大型语言模型(LLMs)在各种定量推理和知识基准测试中展现出卓越的性能。然而,随着LLMs得分不断提高,尽管尚未达到这些领域的专家水平,许多基准测试的实用性正在下降。我们引入了ARB,这是一个由多个领域中的高级推理问题组成的新型基准测试。ARB提供了比以往基准测试更具挑战性的测试,涵盖了数学、物理、生物学、化学和法律等领域的问题。作为ARB的一个子集,我们引入了一组具有挑战性的数学和物理问题,这些问题需要高级符号推理和领域知识。我们对最近的模型,如GPT-4和Claude,在ARB上进行评估,并表明当前模型在更具挑战性的任务上得分远低于50%。为了改进自动和辅助评估能力,我们引入了基于评分表的评估方法,允许GPT-4对自己的中间推理步骤进行评分。此外,我们对ARB的符号子集进行人类评估,发现注释者和GPT-4评分表评估分数之间存在令人鼓舞的一致性。
传统的推荐系统利用用户的物品偏好历史来推荐用户可能喜欢的新内容。然而,允许用户表达基于语言的偏好的现代对话界面提供了一种根本不同的偏好输入模式。受大型语言模型(LLMs)提示范式的最近成功启发,我们研究了它们在基于物品和基于语言偏好的推荐中与最先进的基于物品的协同过滤(CF)方法的比较中的应用。为了支持这项研究,我们收集了一个新数据集,其中包含从用户那里引出的基于物品和基于语言的偏好,以及他们对各种(有偏见的)推荐物品和(无偏见的)随机物品的评分。在众多实验结果中,我们发现LLMs在纯基于语言偏好(无物品偏好)的情况下,在接近冷启动情况下与基于物品的CF方法相比,提供了有竞争力的推荐性能,尽管它们没有针对这个特定任务进行监督训练(零-shot)或只有少量标签(少-shot)。这特别令人鼓舞,因为基于语言偏好的表示比基于物品或基于向量的表示更具解释性和可解释性。
代码覆盖率是一种广泛使用的度量标准,用于量化程序元素(如语句或分支)在测试期间的执行程度。计算代码覆盖率是一项资源密集型任务,需要构建代码并执行,同时还需要额外的开销用于仪器化。此外,计算任何代码片段的覆盖率都需要整个程序的上下文。利用机器学习来分摊这一昂贵的过程可以降低代码覆盖率的成本,因为只需要源代码上下文,而且代码覆盖率预测任务可以成为评估模型理解代码能力的新颖基准。我们提出了一个名为大型语言模型(LLMs)代码覆盖率预测的新颖基准任务。我们形式化这一任务,以评估LLMs在理解代码执行方面的能力,通过确定给定测试用例和输入执行的方法中的哪些行。我们策划并发布了一个名为COVERAGEEVAL的数据集,通过执行来自HumanEval数据集的测试和代码,并收集代码覆盖率信息。我们报告了用于代码相关任务的四种最先进的LLMs的性能,包括OpenAI的GPT-4和GPT-3.5-Turbo,Google的BARD以及Anthropic的Claude,在代码覆盖率预测任务上的表现。最后,我们认为代码覆盖率作为度量标准和预训练数据源对于LLMs在软件工程任务上的整体性能是有价值的。
我们提出了Strivec,这是一种新颖的神经表示,将3D场景建模为具有稀疏分布和紧凑分解的本地张量特征网格的辐射场。我们的方法利用张量分解,遵循最近的工作TensoRF,来建模张量网格。与TensoRF不同,后者使用全局张量并侧重于它们的向量-矩阵分解,我们提出利用一组本地张量并应用经典的CANDECOMP/PARAFAC(CP)分解,将每个张量分解为表达沿空间轴的本地特征分布并紧凑编码本地神经场的三元向量。我们还应用多尺度张量网格来发现几何和外观的共同特性,并利用三元向量分解在多个本地尺度上的空间一致性。最终的辐射场属性通过聚合来自所有尺度的多个本地张量的神经特征进行回归。我们的三元向量张量稀疏分布在实际场景表面周围,通过快速粗略重建发现,利用了3D场景的稀疏性。我们证明,我们的模型可以在使用比以前的方法(包括TensoRF和Instant-NGP)显著更少的参数的情况下实现更好的渲染质量。
尽管许多现实世界中可能受益于强化学习的问题,这些问题很少符合马尔可夫决策过程(MDP)的模式:与环境的交互往往代价高昂,指定奖励函数也具有挑战性。受到这些挑战的启发,先前的研究已经开发了从转移动态样本和高回报状态示例中完全学习的数据驱动方法。这些方法通常从高回报状态学习奖励函数,使用该奖励函数标记转移,然后将离线强化学习算法应用于这些转移。虽然这些方法在许多任务上可以取得良好的结果,但它们可能会很复杂,通常需要正则化和时间差分更新。在本文中,我们提出了一种基于示例的离线控制方法,该方法学习多步转移的隐式模型,而不是奖励函数。我们展示了这个隐式模型可以表示基于示例的控制问题的Q值。在一系列基于状态和基于图像的离线控制任务中,我们的方法优于使用学习奖励函数的基线;额外的实验表明了随着数据集大小的增加,改进了鲁棒性和扩展性。