每日精选AI研究论文及翻译
现代推荐系统利用大规模检索模型,包括两个阶段:训练双编码器模型将查询和候选项嵌入到相同空间中,然后进行近似最近邻(ANN)搜索以选择给定查询嵌入的前候选项。在本文中,我们提出了一种新的单阶段范式:一种生成式检索模型,它自回归地解码目标候选项的标识符。为了实现这一点,我们不是为每个项目分配随机生成的原子ID,而是生成语义ID:每个项目的一个语义上有意义的代码词元组,作为其唯一标识符。我们使用一种称为RQ-VAE的分层方法来生成这些代码词。一旦我们获得了所有项目的语义ID,就会训练一个基于Transformer的序列到序列模型,以预测下一个项目的语义ID。由于这个模型以自回归方式直接预测标识下一个项目的代码词元组,因此可以被视为一种生成式检索模型。我们展示了在这种新范式下训练的推荐系统改善了在亚马逊数据集上当前SOTA模型取得的结果。此外,我们证明了序列到序列模型与分层语义ID相结合提供了更好的泛化能力,从而改善了对推荐的冷启动项目的检索。
深度神经网络在监督学习任务中表现出色,但需要大量标记数据。自监督学习提供了一种替代范式,使模型能够从数据中学习而无需明确标签。信息论在理解和优化深度神经网络方面发挥了重要作用。具体而言,信息瓶颈原理已被应用于优化在监督设置中压缩和相关信息保留之间的权衡。然而,在自监督学习中的最佳信息目标仍不清楚。本文从信息论的角度审视各种自监督学习方法,并提出一个统一的框架,形式化自监督信息论学习问题。我们将现有研究整合到一个连贯的框架中,审视最近的自监督方法,并确定研究机会和挑战。此外,我们讨论信息论量及其估计器的经验测量。本文全面审视了信息论、自监督学习和深度神经网络之间的交叉领域。
最近的大型语言模型,如ChatGPT和GPT-4,引起了广泛关注,因为它们能够生成高质量的响应以回应人类输入。尽管ChatGPT和GPT-4在通用文本语料库上经过了广泛测试,展示了它们令人印象深刻的能力,但尚未进行针对金融语料库的研究。在本研究中,我们旨在填补这一空白,通过在零样本或少样本设置下检验ChatGPT和GPT-4作为典型金融文本分析问题的解决器的潜力。具体而言,我们评估它们在五个不同的金融文本数据集上的四个代表性任务的能力。初步研究显示,ChatGPT和GPT-4在金融命名实体识别(NER)和情感分析等任务上表现不佳,这些任务需要领域特定知识,而在数值推理任务上表现出色。我们报告了当前版本的ChatGPT和GPT-4的优势和局限性,将它们与最先进的微调模型以及预训练的领域特定生成模型进行了比较。我们的实验提供了定性研究,希望通过这些研究帮助理解现有模型的能力并促进进一步的改进。
在一系列最近的研究中,对象中心架构已被证明适用于视觉领域中的无监督场景分解。受这些方法的启发,我们提出了AudioSlots,这是一个针对音频领域的以槽为中心的生成模型,用于盲源分离。AudioSlots采用置换等变编码器和解码器网络构建。基于Transformer架构的编码器网络学习将混合音频频谱图映射到一个无序的独立源嵌入集。空间广播解码器网络学习从源嵌入生成源频谱图。我们使用一个置换不变损失函数以端到端的方式训练模型。我们在Libri2Mix语音分离上的结果构成了这种方法显示潜力的概念验证。我们详细讨论了我们方法的结果和局限性,并进一步概述了克服这些局限性和未来工作方向的潜在方法。
在扩散模型在图像生成方面取得显著成功后,最近的研究还展示了它们在以无监督方式解决多个反问题方面的令人印象深刻能力,通过根据条件输入适当约束采样过程。受此启发,在本文中,我们提出了首个利用扩散模型作为高精度三维人脸BRDF重建的先验的方法。我们首先利用高质量的人脸反射UV数据集(漫反射和镜面反照率以及法线),在不同照明设置下渲染以模拟自然RGB纹理,然后在渲染纹理和反射分量的连接对上训练一个无条件扩散模型。在测试时,我们将3D可塑模型拟合到给定图像中,并在部分UV纹理中展开面部。通过从扩散模型中采样,同时保留观察到的纹理部分不变,该模型不仅对自遮挡区域进行修复,还对未知的反射分量进行修复,在单个去噪步骤序列中。与现有方法相比,我们直接从输入图像中获取观察到的纹理,从而导致更忠实和一致的反射估计。通过一系列定性和定量比较,我们展示了在纹理完成和反射重建任务中的卓越性能。
视频内容的激增要求采用高效灵活的基于神经网络的方法来生成新的视频内容。本文提出了一种新颖的方法,结合了零样本文本到视频生成和ControlNet,以改善这些模型的输出。我们的方法以多个草图帧作为输入,并生成与这些帧流畅匹配的视频输出,基于文本到视频零架构,并整合ControlNet以实现额外的输入条件。通过首先在输入的草图之间插值帧,然后运行使用新插值帧视频作为控制技术的文本到视频零,我们利用了零样本文本到视频生成和ControlNet提供的稳健控制的优势。实验证明,我们的方法在生成高质量且一致性显著的视频内容方面表现出色,更准确地符合用户对视频中主体运动的意图。我们提供了全面的资源包,包括演示视频、项目网站、开源GitHub存储库和Colab平台,以促进进一步研究和应用我们提出的方法。
为了让机器人能够有效地个性化物理辅助,它必须学习用户偏好,这些偏好可以被普遍地应用到未来的场景中。在这项工作中,我们研究了利用机器人个性化进行家庭清理,机器人可以通过捡起物品并把它们放好来整理房间。一个关键挑战是确定每个物品放置的适当位置,因为人们的偏好可能会因个人口味或文化背景而大不相同。例如,一个人可能喜欢把衬衫放在抽屉里,而另一个人可能更喜欢放在架子上。我们的目标是构建系统,可以通过与特定人的先前互动仅仅学习少量示例来学习这种偏好。我们展示了机器人可以将基于语言的规划和感知与大型语言模型(LLMs)的少样本摘要能力相结合,推断出广泛适用于未来互动的用户偏好。这种方法实现了快速适应,并在我们的基准数据集中对未见过的物品达到了91.2%的准确率。我们还在一个名为TidyBot的真实世界移动操作器上展示了我们的方法,成功地在真实世界测试场景中整理了85.0%的物品。
近年来,大型预训练语言模型(LLMs)展示了能够遵循指令并从少量示例中执行新任务的能力。通过在上下文示例中对LLM进行参数化的可能性,可以在比微调低得多的成本下扩展它们的能力。我们延伸了这一推理,并提出了一种通过将LLM嵌入算法或程序进一步扩展其能力的方法。为了展示这种方法的好处,我们提出了一个证据支持的问答示例。通过更加算法化的方法,我们在不进行任何微调的情况下比思维链基准获得了6.4\%的改进。此外,我们重点介绍了从这一角度出发的最新工作,并讨论了与标准方法相比的优缺点。
由于体积渲染所需的大量样本,优化和渲染神经辐射场具有极高的计算成本。最近的研究已经包括了替代采样方法,以帮助加速他们的方法,然而,它们通常不是工作的重点。在本文中,我们调查并比较多种采样方法,并展示改进的采样通常适用于统一的透射率估计概念下的各种NeRF变体。为了促进未来的实验,我们开发了NerfAcc,一个Python工具包,提供灵活的API,用于将先进的采样方法纳入与NeRF相关的方法中。我们展示了它的灵活性,通过展示它可以将几种最近的NeRF方法的训练时间缩短1.5倍至20倍,而对现有代码库的修改很小。此外,高度定制的NeRF,如Instant-NGP,可以使用NerfAcc在原生PyTorch中实现。
代码执行是编程语言语义的一个基本方面,反映了代码的确切行为。然而,大多数用于代码智能的预训练模型忽略了执行跟踪,只依赖于源代码和句法结构。本文研究了预训练模型在理解和执行代码方面的表现。我们开发了一种基于变异的数据增强技术,创建了一个大规模且真实的Python数据集和代码执行任务,挑战了诸如Codex之类的现有模型。然后,我们提出了CodeExecutor,一个利用代码执行预训练和课程学习来增强其语义理解能力的Transformer模型。我们对CodeExecutor进行了代码执行评估,展示了其有希望的性能和局限性。我们还展示了它对于代码智能任务(如零样本代码到代码搜索和文本到代码生成)的潜在益处。我们的分析提供了关于预训练模型在代码执行方面学习和泛化能力的见解。
网页一直是语言和视觉-语言任务的丰富资源。然而,只有网页的部分内容被保留下来:图像-标题对、长文本文章或原始HTML,从未同时存在于一个地方。因此,网页任务受到了较少关注,结构化的图像-文本数据被低估利用。为了研究多模态网页理解,我们引入了维基百科网页2M(WikiWeb2M)套件;这是第一个保留了页面中所有图像、文本和结构数据的套件。WikiWeb2M可用于诸如页面描述生成、章节总结和上下文图像标题等任务。