每日精选AI研究论文及翻译
更好地理解大型语言模型(LLMs)在法律分析方面的能力有助于提高法律服务的效率,监管人工智能,并利用LLMs来识别法律中的不一致之处。本文探讨了LLMs在应用税法方面的能力。我们选择这个法律领域,因为它具有一种结构,使我们能够在成千上万的示例中建立自动化验证流程,需要逻辑推理和数学技能,并使我们能够以与公民和公司的现实经济生活相关的方式测试LLMs的能力。我们的实验表明,新兴的法律理解能力,随着每一次后续OpenAI模型发布而提高。我们尝试检索和利用相关的法律权威来评估向LLMs提供额外法律背景的影响。发现,少样本提示,展示问题-答案对的示例,也被发现明显提升了最先进模型GPT-4的性能。研究结果表明,LLMs,特别是当结合提示增强和正确的法律文本时,可以在高准确度水平上执行,但尚未达到专业税务律师的水平。随着LLMs的不断进步,它们自主推理法律的能力可能对法律行业和人工智能治理产生重大影响。
扩散模型展现出生成多样图像的巨大潜力。然而,由于迭代去噪,它们的性能常常受到生成速度缓慢的影响。最近提出的知识蒸馏被认为是一种可以将推断步骤减少到一步或几步而不会显著降低质量的补救方法。然而,现有的蒸馏方法要么需要大量离线计算以从教师模型生成合成训练数据,要么需要借助真实数据进行昂贵的在线学习。在这项工作中,我们提出了一种名为BOOT的新技术,通过高效的无数据蒸馏算法克服了这些限制。其核心思想是学习一个时间条件模型,可以预测经过预训练的扩散模型教师在任何时间步的输出。这样的模型可以通过从两个连续采样步骤进行自举有效地进行训练。此外,我们的方法可以轻松适应大规模文本到图像扩散模型,这对传统方法来说具有挑战性,因为训练集通常庞大且难以访问。我们在DDIM设置中的几个基准数据集上展示了我们方法的有效性,实现了与扩散教师相比可比的生成质量,同时生成速度比扩散教师快几个数量级。文本到图像的结果表明,所提出的方法能够处理高度复杂的分布,为更高效的生成建模提供了启示。
一个特定场景的“氛围”包括什么?在“繁忙肮脏的城市街道”、“宁静田园风光”或“废弃客厅内的犯罪现场”中应该包含什么?现有系统在训练时基于严格和有限的室内数据集,无法以通用方式将抽象场景描述转化为风格化场景元素。在本文中,我们提出利用基础模型捕获的知识来完成这种转换。我们提出了一个系统,可以作为一种工具来生成由简短短语描述的3D场景的风格化资产,而无需列举场景中的对象或给出其外观的指令。此外,它对开放世界概念具有鲁棒性,这是传统方法所不具备的,为3D艺术家提供更多创造自由。我们的系统通过由大型语言模型、视觉-语言模型和几个图像扩散模型组成的基础模型“团队”来展示这一点,它们使用可解释和可用户编辑的中间表示进行通信,从而为3D艺术家提供更多样化和可控的风格化资产生成。我们为这一任务引入了新颖的度量标准,并通过人类评估显示,在91%的情况下,我们的系统输出被认为比基准更忠实于输入场景描述的语义,从而突显了这种方法加速3D艺术家的3D内容创作过程的潜力。
跨模态的生成式人工智能系统,涵盖文本、图像、音频和视频等多种形式,具有广泛的社会影响,但目前尚无官方标准来评估这些影响以及应当评估哪些影响。我们致力于建立一种标准方法,用于评估任何模态的生成式人工智能系统,主要分为两大类:在没有预定应用的基础系统中可以评估的内容,以及在社会中可以评估的内容。我们描述了具体的社会影响类别以及如何在基础技术系统中进行评估,然后在人们和社会中进行评估。我们针对基础系统制定了七大社会影响类别的框架:偏见、刻板印象和表征性危害;文化价值和敏感内容;性能差异;隐私和数据保护;财务成本;环境成本;数据和内容管理劳动成本。建议的评估方法适用于所有模态,并分析了现有评估的局限性,为未来评估的必要投资提供了起点。我们提出了五大社会评估类别,每个类别都有自己的子类别:可信度和自主性;不平等、边缘化和暴力;权威集中;劳动和创造力;生态系统和环境。每个子类别都包括减少伤害的建议。我们同时正在为人工智能研究社区创建一个评估存储库,以便贡献现有的评估,按照给定的类别进行分类。此版本将在2023年ACM FAccT举办的CRAFT会议后进行更新。
本文旨在进行开放词汇物体检测(OVOD)- 构建一个能够检测超出训练中所见类别范围的模型,从而使用户能够在推断时指定感兴趣的类别,而无需重新训练模型。我们采用标准的两阶段物体检测器架构,并探索三种指定新类别的方法:通过语言描述,通过图像示例,或者两者结合。我们做出三点贡献:首先,我们促使一个大型语言模型(LLM)生成信息丰富的物体类别语言描述,并构建强大的基于文本的分类器;其次,我们在图像示例上采用视觉聚合器,可以接受任意数量的图像作为输入,形成基于视觉的分类器;第三,我们提供一种简单的方法来融合语言描述和图像示例的信息,得到一个多模态分类器。在具有挑战性的LVIS开放词汇基准测试中进行评估时,我们展示了:(i)我们的基于文本的分类器优于所有先前的OVOD工作;(ii)我们的基于视觉的分类器在先前的工作中与基于文本的分类器表现一样好;(iii)使用多模态分类器比任一单一模态表现更好;最后,(iv)我们的基于文本和多模态分类器的性能优于完全监督的检测器。
专业摄影师常进行的常见编辑操作包括清理操作:减弱分散注意力的元素并增强主体。这些编辑是具有挑战性的,需要在操纵观众注意力的同时保持照片逼真度之间取得微妙平衡。尽管最近的方法可以自豪地展示成功的注意力减弱或增强示例,但大多数方法也常常出现不真实的编辑。我们提出了一种适用于基于显著性的图像增强的逼真损失,以在各种图像类型中保持高逼真度,同时减弱干扰因素并增强感兴趣的对象。与专业摄影师的评估证实,我们实现了逼真性和有效性的双重目标,并在他们自己的数据集上胜过最近的方法,同时需要更小的内存占用和运行时间。因此,我们提供了一种可行的解决方案,用于自动化图像增强和照片清理操作。
神经辐射场(NeRF)展示了令人印象深刻的新视角合成结果;然而,即使是详尽的记录也会在重建过程中出现缺陷,例如由于观察不足的区域或轻微的光照变化。我们的目标是通过联合解决方案减轻来自各种来源的这些缺陷:我们利用生成对抗网络(GANs)生成逼真图像的能力,并将其用于增强NeRF在3D场景重建中的逼真度。为此,我们利用对抗鉴别器学习场景的补丁分布,为辐射场重建提供反馈,从而以3D一致的方式提高逼真度。因此,通过施加多视角路径渲染约束,直接修复底层3D表示中的渲染伪影。此外,我们使用多分辨率NeRF渲染来调节生成器,经过对抗训练以进一步提高渲染质量。我们展示了我们的方法显著提高了渲染质量,例如,在Tanks和Temples这些先进的室内场景中,与Nerfacto相比,LPIPS分数几乎减半,同时将PSNR提高了1.4dB。