每日精选AI研究论文及翻译
尽管音频生成在不同类型的音频(如语音、音乐和音效)之间有共同点,但为每种类型设计模型需要仔细考虑特定目标和偏差,这些偏差可能与其他类型有显著不同。为了让我们更接近音频生成的统一视角,本文提出了一个框架,该框架利用相同的学习方法进行语音、音乐和音效生成。我们的框架引入了一种名为音频语言(LOA)的音频通用表示。任何音频都可以基于AudioMAE转换为LOA,这是一个自监督预训练表示学习模型。在生成过程中,我们使用GPT-2模型将任何模态转换为LOA,并使用以LOA为条件的潜在扩散模型进行自监督音频生成学习。所提出的框架自然带来了诸如上下文学习能力和可重复使用的自监督预训练的AudioMAE和潜在扩散模型等优势。在文本到音频、文本到音乐和文本到语音的主要基准测试上进行的实验表明,与先前方法相比,取得了新的最先进或具有竞争力的性能。我们的演示和代码可在https://audioldm.github.io/audioldm2 上找到。
确保对齐,指的是使模型与人类意图一致[1,2],在将大型语言模型(LLMs)部署到实际应用之前,这已成为一项关键任务。例如,OpenAI在发布GPT-4之前花费了六个月来迭代对齐[3]。然而,从业者面临的一个主要挑战是缺乏明确指导,以评估LLM输出是否与社会规范、价值观和法规一致。这一障碍阻碍了LLMs的系统迭代和部署。为了解决这个问题,本文提出了一个关键维度的综合调查,这些维度在评估LLM的可信度时至关重要。调查涵盖了LLM可信度的七个主要类别:可靠性、安全性、公平性、防止滥用、可解释性和推理能力、遵守社会规范以及鲁棒性。每个主要类别进一步分为多个子类别,共计29个子类别。此外,选择了8个子类别进行进一步调查,设计并实施了针对几种广泛使用的LLMs的相应测量研究。测量结果表明,一般来说,更加对齐的模型在整体可信度方面表现更好。然而,对齐的有效性在考虑的不同可信度类别之间存在差异。这突显了进行更加细致的分析、测试和对LLM对齐进行持续改进的重要性。通过阐明LLM可信度的这些关键维度,本文旨在为该领域的从业者提供有价值的见解和指导。理解和解决这些问题将对在各种应用中实现LLMs的可靠和符合道德的部署至关重要。
跟踪和追踪感兴趣的对象对于几种机器人技术的应用至关重要,涵盖工业自动化、物流和仓储、医疗保健和安全等领域。本文介绍了一个机器人系统,能够实时检测、跟踪和追踪任何对象。我们提出的方法被称为“跟随任何物体”(FAn),是一种开放词汇和多模态模型,不限于训练时见过的概念,可以通过文本、图像或点击查询在推断时应用于新类别。利用大规模预训练模型(基础模型)提取丰富的视觉描述符,FAn可以通过将多模态查询(文本、图像、点击)与输入图像序列进行匹配来检测和分割对象。这些检测和分割的对象在图像帧之间进行跟踪,同时考虑遮挡和对象再出现。我们在一个真实世界的机器人系统(微型飞行器)上展示了FAn,并报告了其在实时控制循环中无缝跟踪感兴趣对象的能力。FAn可以部署在配备轻量级(6-8 GB)显卡的笔记本电脑上,实现每秒6-20帧的吞吐量。为了促进快速采用、部署和可扩展性,我们在项目网页https://github.com/alaamaalouf/FollowAnything 上开源了所有代码。我们还鼓励读者观看我们的5分钟解说视频,链接为https://www.youtube.com/watch?v=6Mgt3EPytrw。
本文考虑基于梯度的网格优化,通过将三维表面网格表示为标量场的等值面来进行迭代优化。这在包括摄影测量、生成建模和反物理学等应用中越来越常见。现有的实现采用了经典的等值面提取算法,如Marching Cubes或Dual Contouring;这些技术旨在从固定、已知的场中提取网格,在优化设置中缺乏表达高质量保持特征的网格的自由度,或者受到数值不稳定性的影响。我们引入了FlexiCubes,这是一种专门设计用于根据几何、视觉甚至物理目标优化未知网格的等值面表示。我们的主要见解是引入了额外精心选择的参数到表示中,允许对提取的网格几何和连接性进行局部灵活调整。这些参数会随着基础标量场一起通过自动微分进行更新,用于优化下游任务。我们基于Dual Marching Cubes设计了提取方案以改善拓扑特性,并提出了生成四面体和分层自适应网格的扩展。大量实验证实了FlexiCubes在合成基准和实际应用中的有效性,表明它在网格质量和几何保真度方面提供了显著改进。
蛋白质的多重序列比对(MSAs)编码丰富的生物信息,在蛋白质设计和蛋白质结构预测等生物信息学方法中几十年来一直发挥着重要作用。像AlphaFold2这样利用变压器直接关注大量原始MSAs的最新突破再次证实了它们的重要性。然而,MSAs的生成需要极大的计算量,目前尚未向研究社区提供类似用于训练AlphaFold2的数据集,这阻碍了蛋白质机器学习领域的进展。为解决这一问题,我们介绍了OpenProteinSet,这是一个开源语料库,包含超过1600万个MSAs,与蛋白质数据银行中的结构同源物和AlphaFold2蛋白质结构预测相关联。我们先前已经展示了OpenProteinSet的实用性,成功地在其上对AlphaFold2进行了重新训练。我们期望OpenProteinSet能广泛用于蛋白质结构、功能和设计等多样任务的训练和验证数据,以及大规模多模态机器学习研究。
Alexa Prize计划赋予了许多大学生探索、实验和展示他们在构建会话代理方面的才能的机会,其中包括SocialBot大挑战和TaskBot挑战。随着会话代理在多模态和具象化环境中的应用日益增多,探索结合计算机视觉和实体化的会话交互的功能变得至关重要。本文描述了SimBot挑战,这是一个新的挑战,大学团队将在其中竞争构建能够在模拟物理环境中完成任务的机器人助手。本文概述了SimBot挑战,其中包括在线和离线挑战阶段。我们描述了为团队提供的基础设施和支持,包括Alexa Arena、模拟环境以及提供给团队加速构建视觉和语言模型的ML工具包。我们总结了参与团队应对研究挑战并提取关键经验教训的方法。最后,我们对比赛中竞争SimBot的表现进行了分析。
时间依赖的偏微分方程(PDEs)在科学和工程中随处可见。最近,主要是由于传统解决方案的高计算成本,基于深度神经网络的替代方法引起了越来越多的关注。这种神经网络PDE求解器的实际效用取决于它们能够在长时间范围内提供准确、稳定的预测,这是一个众所周知的难题。在这项工作中,我们对常见的时间展开策略进行了大规模分析,确定了忽略非主导空间频率信息的问题,这些信息通常与PDE解中的高频相关,是限制稳定、准确展开性能的主要缺陷。基于这些见解,我们从最近扩散模型的进展中汲取灵感,引入了PDE-Refiner;这是一种新颖的模型类别,通过多步细化过程实现对所有频率分量更准确的建模。我们在复杂流体动力学的具有挑战性的基准测试中验证了PDE-Refiner,展示了稳定和准确的展开,始终优于最先进的模型,包括神经网络、数值和混合神经-数值结构。我们进一步证明,PDE-Refiner极大地提高了数据效率,因为去噪目标隐含地引入了一种新形式的频谱数据增强。最后,PDE-Refiner与扩散模型的联系使我们能够准确高效地评估模型的预测不确定性,从而让我们能够估计替代模型何时变得不准确。