每日精选AI研究论文及翻译
大型语言模型(LLMs),如ChatGPT所示,因其出色的自然语言处理能力而备受关注。然而,这些LLMs在可信度领域面临许多挑战。因此,确保LLMs的可信度成为一个重要课题。本文介绍了TrustLLM,这是对LLMs可信度的全面研究,包括不同可信度维度的原则、建立基准、评估和分析主流LLMs的可信度,以及讨论开放挑战和未来方向。具体而言,我们首先提出了涵盖八个不同维度的可信LLMs原则。基于这些原则,我们进一步跨越六个维度建立了一个基准,包括真实性、安全性、公平性、鲁棒性、隐私性和机器伦理。然后,我们在TrustLLM中对16个主流LLMs进行了研究,涵盖了30多个数据集。我们的研究结果首先显示,总体上可信度和效用(即功能有效性)呈正相关关系。其次,我们的观察揭示,专有LLMs通常在可信度方面优于大多数开源对应物,引发对广泛可访问的开源LLMs潜在风险的担忧。然而,一些开源LLMs与专有LLMs非常接近。第三,重要的是要注意,一些LLMs可能过度校准以展示可信度,导致误将良性提示视为有害并因此不予回应,从而损害其效用。最后,我们强调确保透明度的重要性,不仅在模型本身,还在支撑可信度的技术中。了解已采用的具体可信技术对分析其有效性至关重要。
本技术报告介绍了PIXART-{\delta},这是一个将潜在一致性模型(LCM)和ControlNet集成到先进的PIXART-{\alpha}模型中的文本到图像合成框架。PIXART-{\alpha}以通过高效的训练过程生成1024px分辨率高质量图像而闻名。在PIXART-{\delta}中集成LCM显著加快了推理速度,使得仅需2-4步即可生成高质量图像。值得注意的是,PIXART-{\delta}实现了在0.5秒内生成1024x1024像素图像的突破,比PIXART-{\alpha}提高了7倍。此外,PIXART-{\delta}被设计为能够在单日内在32GB V100 GPU上高效训练。凭借其8位推理能力(von Platen等,2023),PIXART-{\delta}可以在8GB GPU内存限制下合成1024px图像,极大地提升了其可用性和易用性。此外,引入类似ControlNet的模块实现了对文本到图像扩散模型的精细控制。我们引入了一种新颖的ControlNet-Transformer架构,专门为Transformers定制,实现了明确的可控性以及高质量图像生成。作为一种最先进的开源图像生成模型,PIXART-{\delta}为稳定扩散模型家族提供了一个有前途的替代方案,对文本到图像合成做出了重大贡献。
变压器与上一代最先进的自然语言处理模型——循环神经网络(RNN)在概念上被认为是不同的。在这项工作中,我们展示了仅包含解码器的变压器实际上可以被概念化为无限多状态的RNN——一种具有无限隐藏状态大小的RNN变体。我们进一步展示,预训练的变压器可以通过固定其隐藏状态的大小转换为有限多状态的RNN。我们观察到一些现有的变压器缓存压缩技术可以被构建为这种转换策略,并引入了一种新颖的策略TOVA,与这些策略相比更简单。我们在几个远程任务上的实验表明,TOVA优于所有其他基准策略,同时几乎与完整(无限)模型持平,并且在某些情况下仅使用原始缓存大小的1/8。我们的结果表明,变压器解码器LLM在实践中通常表现为RNN。它们还提出了缓解它们最痛苦的计算瓶颈之一——缓存内存大小的选择。我们在https://github.com/schwartz-lab-NLP/TOVA 上公开发布了我们的代码。
人类有能力进行策略性欺骗行为:在大多数情况下表现出有帮助的行为,但一旦有机会追求替代目标时,则表现出截然不同的行为。如果一个人工智能系统学会了这种欺骗策略,我们能否利用当前最先进的安全训练技术检测并消除它呢?为了研究这个问题,我们构建了大型语言模型(LLMs)中欺骗行为的概念验证示例。例如,我们训练模型,在提示中指定年份为2023时编写安全代码,但在指定年份为2024时插入可利用的代码。我们发现这种带后门的行为可以变得持久化,以至于无法通过标准的安全训练技术(包括监督微调、强化学习和对抗训练)来消除,后门行为在最大的模型和训练出具有欺骗训练过程思维链的模型中最为持久,即使去除了思维链,这种持久性仍然存在。此外,我们发现对抗训练并非消除后门,而是教会模型更好地识别其后门触发器,有效地隐藏了不安全的行为。我们的研究结果表明,一旦模型表现出欺骗行为,标准技术可能无法消除这种欺骗,并可能产生安全性的虚假印象。
我们介绍了一种名为InseRF的新方法,用于在3D场景的NeRF重建中生成对象插入。基于用户提供的文本描述和参考视点中的2D边界框,InseRF在3D场景中生成新对象。最近,由于在3D生成建模中使用了文本到图像扩散模型的强先验知识,3D场景编辑方法发生了深刻变革。现有方法在通过样式和外观变化或移除现有对象编辑3D场景方面大多效果显著。然而,对于这些方法而言,生成新对象仍然是一个挑战,我们在本研究中解决了这个问题。具体而言,我们建议将3D对象插入基于场景参考视图中的2D对象插入。然后,通过单视图对象重建方法将2D编辑转换为3D。重建的对象然后被插入到场景中,并受到单目深度估计方法的先验知识指导。我们在各种3D场景上评估了我们的方法,并对所提出的组件进行了深入分析。我们在几个3D场景中进行的对象生成插入实验表明,与现有方法相比,InseRF的效果更好。InseRF能够进行可控且3D一致的对象插入,而无需作为输入的显式3D信息。请访问我们的项目页面:https://mohamad-shahbazi.github.io/inserf。
现有的逼真的可重光手部模型需要在不同视角、姿势和光照下进行广泛的特定身份观察,并面临着在自然光照和新身份上推广的挑战。为了弥合这一差距,我们提出了URHand,这是第一个能够跨视角、姿势、光照和身份进行泛化的通用可重光手部模型。我们的模型允许使用手机拍摄的图像进行少样本个性化,并能在新光照下逼真渲染。为了简化个性化过程并保持逼真性,我们基于来自灯光舞台上捕捉的数百个身份手部多视角图像的神经重光构建了强大的通用可重光先验。关键挑战在于在保持个性化保真度和锐利细节的同时扩展跨身份训练,而不损害在自然光照下的泛化能力。为此,我们提出了一个空间变化的线性光照模型作为神经渲染器,以物理启发的阴影作为输入特征。通过去除非线性激活和偏差,我们专门设计的光照模型明确保持了光传输的线性性。这使得可以从灯光舞台数据进行单阶段训练,同时在不同身份之间实现对任意连续光照的实时渲染泛化。此外,我们引入了基于物理的模型和我们的神经重光模型的联合学习,进一步提高了保真度和泛化性能。大量实验证明,我们的方法在质量和泛化能力方面均优于现有方法。我们还展示了如何通过对未知身份进行短时间手机扫描来快速个性化URHand。
大型语言模型(LLMs)是强大的对话代理,但将它们专门用于实现特定功能可能具有挑战性。指导微调,即在指令和人类生成的样本响应上微调模型(Ouyang等,2022),已被证明是一种有效的方法,但需要大量数据样本,这些数据可能a)不可用或b)生成成本高昂。此外,当目标是使LLM遵循对话中的特定工作流程而不仅仅是单个指令时,这种成本会增加。受强化学习中的自我对弈技术和LLMs模拟人类代理的启发,我们提出了一种通过LLMs在不同角色中进行对话来进行数据收集的更有效方法。这种方法通过LLMs的“自言自语”生成训练数据,可以进行精炼并用于监督微调。我们介绍了一种自动化的方法来衡量对话的(部分)成功。这个度量标准用于过滤生成的对话数据,然后馈送回LLM进行训练。基于我们对对话质量的自动化和人工评估,我们证明了这种自言自语数据改善了结果。此外,我们研究了展示生成对话质量的各种特征以及它们如何与作为训练数据的潜在效用相连接。
思维链(CoT)对于提升大型语言模型(LLMs)的推理能力具有重要意义。然而,CoT的效果与提示中推理步骤的长度之间的相关性仍然大多未知。为了阐明这一点,我们进行了几项实证实验来探索这种关系。具体而言,我们设计了一些实验,扩展和压缩CoT演示中的推理步骤,同时保持所有其他因素不变。我们得出以下几个关键发现。首先,结果表明,在提示中延长推理步骤,即使没有向提示中添加新信息,也显著增强了LLMs在多个数据集上的推理能力。相反,缩短推理步骤,即使保留了关键信息,也显著降低了模型的推理能力。这一发现突显了CoT提示中步骤数量的重要性,并为更好地利用LLMs在复杂问题解决场景中的潜力提供了实用指导。其次,我们还调查了CoT性能与演示中使用的推理之间的关系。令人惊讶的是,结果显示,即使是错误的推理,如果保持了必要的推理长度,也可以产生良好的结果。第三,我们观察到增加推理步骤的优势是依赖于任务的:简单任务需要较少的步骤,而复杂任务则从更长的推理序列中获益显著。
视觉-语言模型最近取得的进展主要归因于丰富的图像文本数据。我们的目标是为视频-语言模型复制这一成功,但目前可用的人工筛选的视频文本数据并不足够。因此,我们将从强大的图像-语言基线模型中微调一个视频-语言模型,并使用合成的指导数据。随后,生成的视频-语言模型用于自动为数百万视频生成高质量字幕。我们展示了经过调整的视频-语言模型在各种视频-语言基准测试中表现良好。例如,它在开放式NExT-QA基准测试中的表现超过了以往最佳结果2.8%。此外,我们的模型为以前未见过的视频生成了详细描述,提供了比现有方法更好的文本监督。实验证明,一个视频-语言双编码器模型,在对这些自动生成的字幕进行对比训练后,比那些也利用视觉-语言模型的最强基线模型提高了3.8%。我们的最佳模型在MSR-VTT零样本文本到视频检索任务上的表现超过了最先进方法6%。
互联网上丰富的内容中,高达60%以英语发布,与全球人口形成鲜明对比,仅有18.8%为英语使用者,仅有5.1%将其视为母语,导致在线信息获取存在差异。遗憾的是,用于视频配音的自动化流程——即用翻译替代视频的音频轨道——仍然是一个复杂而具有挑战性的任务,因为需要精确的时机、面部运动同步和韵律匹配。虽然端到端配音提供了一种解决方案,但数据稀缺继续阻碍了端到端和基于流水线的方法的进展。在这项工作中,我们介绍了Anim-400K,这是一个包含超过425K对齐的日语和英语动画视频片段的全面数据集,支持各种与视频相关的任务,包括自动配音、同声翻译、引导式视频摘要以及流派/主题/风格分类。我们的数据集已公开提供供研究目的使用,网址为https://github.com/davidmchan/Anim400K。
得分蒸馏采样(SDS)是一种最近广受欢迎的方法,它依赖于图像扩散模型来控制使用文本提示的优化问题。在本文中,我们对SDS损失函数进行了深入分析,识别了其公式中固有的问题,并提出了一个出乎意料但有效的修复方案。具体而言,我们将损失分解为不同因素,并分离出负责嘈杂梯度的组件。在原始公式中,高文本引导被用来解决噪声问题,导致了不良的副作用。相反,我们训练一个浅层网络,模仿图像扩散模型随时间变化的去噪不足,以有效地将其剔除。我们通过多个定性和定量实验展示了我们新颖损失公式的多功能性和有效性,包括基于优化的图像合成和编辑,零样本图像翻译网络训练,以及文本到3D合成。
基于Transformer的大型语言模型(LLMs)已被广泛应用于许多领域,LLM推理效率成为实际应用中的热门话题。然而,LLMs通常在模型结构上设计复杂,具有大量操作,并以自回归模式执行推理,这使得设计高效系统成为一项具有挑战性的任务。 在本文中,我们提出了一种具有低延迟和高吞吐量的高效LLM推理解决方案。首先,我们通过融合数据移动和逐元素操作简化了LLM解码器层,以减少内存访问频率并降低系统延迟。我们还提出了一种分段KV缓存策略,将请求和响应令牌的键/值保留在单独的物理内存中,以实现有效的设备内存管理,有助于增大运行时批处理大小并提高系统吞吐量。我们设计了一个定制的基于缓存解决方案的缩放点积注意力核心,以匹配我们的融合策略。我们在Intel GPU上实现了我们的LLM推理解决方案,并将其公开发布。与标准HuggingFace实现相比,所提出的解决方案在Intel GPU上为一些热门LLMs实现了高达7倍的较低令牌延迟和27倍的更高吞吐量。