每日精选AI研究论文及翻译
扩散模型已经成为一种强大的生成范式,在具有连续值输入的各个领域取得了出色的性能。尽管完全非自回归文本生成具有潜力,但由于其离散性质,将扩散模型应用于自然语言仍然具有挑战性。在这项工作中,我们提出了一种名为文本自条件简单形式扩散(TESS)的文本扩散模型,它是完全非自回归的,采用一种新形式的自条件,并在对数几率单纯形空间上应用扩散过程,而不是典型的学习嵌入空间。通过对自然语言理解和生成任务进行广泛实验,包括摘要、文本简化、释义生成和问题生成,我们证明了TESS优于最先进的非自回归模型,并且与预训练的自回归序列到序列模型具有竞争力。
通用音源分离(USS)是计算听觉场景分析的基础研究任务,旨在将单声道录音分离为各个独立的音源轨道。音频源分离任务面临三个潜在挑战等待解决。首先,先前的音频源分离系统主要集中在分离一个或有限数量的特定音源上。缺乏研究建立一个能够通过单一模型分离任意音源的统一系统。其次,大多数先前的系统需要干净的音源数据来训练分离器,而干净的音源数据稀缺。第三,缺乏能够在分层级别自动检测和分离活动声音类别的USS系统。为了利用大规模的弱标记/未标记音频数据进行音频源分离,我们提出了一个通用音频源分离框架,包括:1)在弱标记数据上训练的音频标记模型作为查询网络;和2)一个条件音源分离模型,以查询网络输出作为条件来分离任意声音源。我们研究了各种查询网络、音源分离模型和训练策略,并提出了一种分层USS策略,以从AudioSet本体中自动检测和分离声音类别。通过仅利用弱标记的AudioSet,我们的USS系统成功地分离了各种声音类别,包括声音事件分离、音乐源分离和语音增强。该USS系统在AudioSet的527个声音类别上实现了平均信号失真比改进(SDRi)为5.57 dB;在DCASE 2018任务2数据集上为10.57 dB;在MUSDB18数据集上为8.12 dB;在Slakh2100数据集上为7.28 dB;在voicebank-demand数据集上为9.00 dB的SSNR。我们在https://github.com/bytedance/uss发布了源代码。
基于文本驱动的图像和视频扩散模型在生成逼真且多样化内容方面取得了前所未有的成功。最近,基于扩散生成模型对现有图像和视频进行编辑和变化引起了广泛关注。然而,先前的研究仅限于使用文本编辑内容或使用单个视觉线索提供粗略个性化,因此无法满足需要精细和详细控制的难以描述的内容。在这方面,我们提出了一个名为Make-A-Protagonist的通用视频编辑框架,利用文本和视觉线索编辑视频,旨在赋予个人成为主角的能力。具体而言,我们利用多个专家来解析源视频、目标视觉和文本线索,并提出了一种基于视觉文本的视频生成模型,采用基于蒙版引导去噪采样来生成期望的输出。大量结果展示了Make-A-Protagonist的多才多艺和显著的编辑能力。
总结模型通常生成的文本与质量度量不够校准,因为它们被训练以最大化单个参考(MLE)的可能性。为了解决这个问题,最近的研究增加了一个校准步骤,通过将模型暴露于其自身的排名输出来改善相关性,或者在另一条研究线上,对比正面和负面集以提高忠实度。尽管这些方法有效,但大部分工作都集中在如何生成和优化这些集合上。我们对哪种设置比另一种更有效知之甚少。在这项工作中,我们揭示了有效集合的潜在特征。对于每个训练实例,我们形成了一个大型、多样化的候选池,并系统地变化用于校准微调的子集。每种选择策略都针对集合的不同方面,比如词汇多样性或正面和负面之间的差距大小。在三个不同的科学长篇摘要数据集(涵盖生物医学、临床和化学领域)上,我们发现,信实度校准在负面集是抽取式且更有可能生成时最佳,而对于相关性校准,候选者之间的度量间隔应最大化,惊喜——模型与度量定义的候选者排名之间的分歧——应最小化。可用于创建、选择和优化校准集的代码位于https://github.com/griff4692/calibrating-summaries
尽管在网络大规模图像文本数据上进行预训练已经促进了许多视觉与语言(V&L)任务的快速进展,但最近的研究表明,预训练模型缺乏“细粒度”理解,例如在图像中识别关系、动词和数字的能力。这导致社区对开发新的基准或模型以具备这些能力产生了更大兴趣。为了更好地理解和量化这个方向的进展,我们对四个细粒度基准上的四个竞争性V&L模型进行了调查。通过我们的分析,我们发现X-VLM(曾等人,2022)在性能上始终优于其他基线,并且建模创新可能比扩展网络数据对性能的影响更大,有时甚至会降低性能。通过对X-VLM的深入研究,我们强调了新型损失和丰富数据源对学习细粒度技能的重要性。最后,我们检查了训练动态,并发现对于一些任务,性能在训练早期达到峰值或显著波动,从未收敛。
生成忠实的人脸可视化需要捕捉面部几何和外观的粗细级细节。现有方法要么是数据驱动的,需要大量数据语料库,这些数据对研究社区不公开,要么无法捕捉细节,因为它们依赖于几何面部模型,无法用网格离散化和线性变形来表示纹理的细节,这些模型只设计用于模拟粗糙的面部几何。我们引入了一种方法,通过借鉴传统计算机图形技术来弥合这一差距。未见过的表情是通过混合来自一组极端姿势的外观来建模的。这种混合是通过测量这些表情的局部体积变化并在测试时每当执行类似表情时在局部再现它们的外观来执行的。我们展示了我们的方法可以推广到未见过的表情,为面部的平滑体积变形增加了细粒度效果,并展示了它如何在超越面部的情况下推广。
确保大型语言模型(LMs)公平、稳健和有用,需要理解对其输入进行不同修改如何影响模型行为。然而,在开放文本生成任务的背景下,这样的评估并不是微不足道的。例如,当引入一个带有输入文本和扰动的“对比”版本时,使用标准解码策略可能无法揭示下一个标记预测中的有意义差异。出于这个动机,我们提出了对比输入解码(CID):一种解码算法,用于生成文本,给定两个输入,生成的文本可能是给定一个输入的,但不太可能是给定另一个输入的。通过这种方式,对比生成可以以简单且可解释的方式突显LM输出在两个输入上的潜在细微差异。我们使用CID来突出显示难以通过标准解码策略检测到的特定上下文偏见,并量化不同输入扰动的影响。
本文研究了一种新颖的视角动作识别问题,我们称之为“多模态泛化”(MMG)。MMG旨在研究系统在某些模态的数据受限或甚至完全缺失时如何泛化。我们在标准监督动作识别和更具挑战性的少样本设置中全面调查了MMG。MMG包括两种新颖场景,旨在支持真实应用中的安全性和效率考虑:(1)缺失模态泛化,即在推断时缺少训练时存在的某些模态;(2)跨模态零样本泛化,即推断时和训练时存在的模态不相交。为了进行这项研究,我们构建了一个新数据集MMG-Ego4D,其中包含视频、音频和惯性运动传感器(IMU)模态的数据点。我们的数据集源自Ego4D数据集,但经过人类专家处理和彻底重新注释,以促进对MMG问题的研究。我们在MMG-Ego4D上评估了多种模型,并提出了具有改进泛化能力的新方法。特别是,我们引入了一个新的融合模块,采用模态丢弃训练、基于对比的对齐训练以及一种新颖的跨模态原型损失,以提高少样本性能。我们希望这项研究能够成为多模态泛化问题的基准,并指导未来的研究。基准和代码将在https://github.com/facebookresearch/MMG_Ego4D 上提供。
资源调度和分配是许多高影响系统的关键组成部分,范围从拥塞控制到云计算。找到这些问题的更优解通常对资源和时间节省、减少设备磨损,甚至潜在地改善碳排放有重大影响。在本文中,我们专注于调度问题的特定实例,即在机器学习程序编译过程中出现的内存映射问题:即将张量映射到不同的内存层以优化执行时间。 我们介绍了一种使用强化学习解决内存映射问题的方法。强化学习是一种适合于可规划的顺序决策问题和具有高维数据输入的组合搜索空间的解决方案范式。我们将问题制定为单人游戏,我们称之为mallocGame,使得游戏的高奖励轨迹对应于目标硬件上的高效内存映射。我们还介绍了一个强化学习代理,mallocMuZero,并展示它能够玩这个游戏,发现新的和改进的内存映射解决方案,从而在ML加速器上的实际ML工作负载上实现更快的执行时间。我们将mallocMuZero的性能与加速线性代数(XLA)编译器使用的默认求解器在一组真实ML工作负载的基准上进行了比较。此外,我们展示了mallocMuZero能够改善最近发布的AlphaTensor矩阵乘法模型的执行时间。
包括OpenAI、Google DeepMind和Anthropic在内的许多领先人工智能公司都宣称他们的目标是构建人工通用智能(AGI)- 即在广泛认知任务中实现或超越人类表现的人工智能系统。在追求这一目标的过程中,它们可能会开发和部署具有特别重大风险的人工智能系统。虽然它们已经采取了一些措施来减轻这些风险,但目前尚未出现最佳实践。为了支持最佳实践的确定,我们向来自AGI实验室、学术界和公民社会的92位领先专家发送了一份调查,并收到了51份回复。参与者被问及他们对50个关于AGI实验室应该做什么的声明有多么同意。我们的主要发现是,参与者平均同意所有这些声明。许多声明获得了极高水平的一致同意。例如,98%的受访者在某种程度上或强烈同意AGI实验室应该进行部署前风险评估、危险能力评估、第三方模型审计、模型使用安全限制和红队演练。最终,我们的声明清单可能为制定AGI实验室的最佳实践、标准和规定提供有益基础。