每日精选AI研究论文及翻译
文本到3D生成旨在从文本提示中合成生动的3D对象,已经引起了计算机视觉社区的广泛关注。虽然一些现有作品在这一任务上取得了令人印象深刻的成果,但它们主要依赖耗时的优化范式。具体来说,这些方法为每个文本提示从头开始优化一个神经场,生成一个对象大约需要一个小时或更长时间。这种沉重和重复的训练成本阻碍了它们的实际部署。在本文中,我们提出了一个新颖的快速文本到3D生成框架,名为Instant3D。一旦训练完成,Instant3D能够在不到一秒的时间内使用前向网络的单次运行为一个未见过的文本提示创建一个3D对象。我们通过设计一个新的网络,直接从文本提示构建一个3D三面体,实现了这一显著的速度。Instant3D的核心创新在于我们探索有效地将文本条件注入网络的策略。此外,我们提出了一个简单而有效的激活函数,即缩放Sigmoid,用以取代原始Sigmoid函数,训练收敛速度提高了十倍以上。最后,为了解决3D生成中的Janus(多头)问题,我们提出了一种自适应Perp-Neg算法,可以根据训练过程中Janus问题的严重程度动态调整其概念否定比例,有效减少多头效应。在广泛的基准数据集上进行的大量实验表明,所提出的算法在质量和数量上均表现优异,同时实现了显著更高的效率。项目页面位于https://ming1993li.github.io/Instant3DProj。
最近在开放世界的3D物体生成方面取得了显著进展,图像到3D方法在细粒度控制方面优于文本到3D方法。然而,大多数现有模型在提供快速生成速度和对输入图像高保真度两方面仍存在不足,这两个特征对于实际应用至关重要。本文介绍了一种创新方法 One-2-3-45++,能够将单个图像转换为约一分钟内的详细3D纹理网格。我们的方法旨在充分利用嵌入在2D扩散模型和有限但宝贵的3D数据先验中的广泛知识。首先通过对2D扩散模型进行微调以实现一致的多视角图像生成,然后借助多视角条件下的3D本地扩散模型将这些图像提升到3D。广泛的实验评估表明,我们的方法能够生成高质量、多样化的3D资产,与原始输入图像密切匹配。我们的项目网页:https://sudo-ai-3d.github.io/One2345plus_page。
大型预训练语言模型(LLMs)的流畅性和创造力已经导致它们被广泛使用,有时甚至作为传统搜索引擎的替代品。然而,语言模型容易产生令人信服但事实不准确的言论,通常被称为“幻觉”。这些错误可能无意中传播错误信息或有害地固化误解。此外,对模型响应进行手动事实核查是一项耗时的过程,使得人工事实标签的获取成本很高。在这项工作中,我们对语言模型进行微调,使其更具事实性,而无需人工标记,并针对比过去工作更开放的生成设置。我们利用自然语言处理中的两项关键最新创新来实现这一点。首先,几项最近的研究提出了通过测量与外部知识库或简单地大型模型的置信度一致性来判断开放式文本事实性的方法。其次,直接偏好优化算法使得能够直接在除了受监督模仿之外的目标上对语言模型进行简单微调,使用对可能的模型响应的偏好排序。我们展示了通过自动生成的事实性偏好排序进行学习,无论是通过现有检索系统还是我们的新颖无检索方法生成的,都显著提高了Llama-2在保留主题上的事实性(生成言论中正确的百分比)与针对事实性的RLHF或解码策略相比。在7B规模上,与Llama-2-chat相比,在生成传记时观察到事实错误率减少了58%,在回答医学问题时减少了40%。
在这项工作中,我们系统地审查了最近在语言模型处理代码方面的进展,涵盖了50多种模型、30多项评估任务和500篇相关作品。我们将代码处理模型分为通用语言模型(如GPT系列)和专门针对代码进行预训练的专用模型,通常具有定制目标。我们讨论了这些模型之间的关系和差异,并突出了代码建模从统计模型和循环神经网络到预训练Transformer和LLM的历史转变,这正是自然语言处理领域所经历的过程。我们还讨论了代码特定特征,如抽象语法树(AST)、控制流图(CFG)和单元测试,以及它们在训练代码语言模型中的应用,并确定了该领域的关键挑战和潜在未来方向。我们将这项调查保持开放,并在GitHub存储库https://github.com/codefuse-ai/Awesome-Code-LLM上进行更新。
大型语言模型(LLMs)的一个核心能力是遵循自然语言指令。然而,对这种能力的评估并不标准:人类评估昂贵、缓慢,且缺乏客观可重复性,而基于LLM的自动评估可能存在偏见,或受评估LLM的能力限制。为了克服这些问题,我们引入了用于大型语言模型的指令遵循评估(IFEval)。IFEval是一个直观且易于复现的评估基准。它专注于一组“可验证指令”,如“写超过400字”和“至少提及AI关键词3次”。我们确定了25种这些可验证指令,并构建了约500个提示,每个提示包含一个或多个可验证指令。我们展示了市场上两种广泛可用的LLMs的评估结果。我们的代码和数据可在https://github.com/google-research/google-research/tree/master/instruction_following_eval 找到。
我们展示了一个情况,即大型语言模型,经过训练以帮助、无害和诚实为目标,可能表现出不一致的行为,并且可以在没有受到指导的情况下,对其用户进行策略性欺骗。具体来说,我们在一个逼真的模拟环境中部署了 GPT-4 作为一个自主股票交易代理人。在这个环境中,模型获得了一条关于一笔有利可图的股票交易的内幕消息,并在明知公司管理层不赞成内幕交易的情况下采取行动。在向其经理报告时,该模型始终隐藏其交易决策背后的真正原因。我们对这种行为如何随着环境设置的变化而变化进行了简要调查,例如取消模型对推理备忘录的访问权限,尝试通过更改系统指令来防止不一致行为,改变模型所承受的压力量,改变被抓到的风险的感知等,并对环境进行其他简单的更改。据我们所知,这是第一个展示大型语言模型在现实情境中策略性欺骗其用户的情况,而这些模型原本是经过训练以帮助、无害和诚实为目标的,且并未接受欺骗方面的直接指导或训练。
在这项工作中,我们提出了FastCoT,这是一个基于并行解码的模型无关框架,无需对辅助模型进行进一步训练或对LLM本身进行修改。FastCoT使用一个大小可变的上下文窗口,其大小随位置变化以同时进行并行解码和自回归解码,从而充分利用GPU计算资源。在FastCoT中,并行解码部分为LLM提供了一个由近似标记组成的未来快速概览,这可能比因果变换器使用的常规自回归解码导致更快的答案。我们还提供了LLM内并行解码的实现,支持KV缓存生成和批处理。通过大量实验,我们证明FastCoT相较于常规方法,推理时间节省了近20%,而性能下降可忽略不计。此外,我们展示上下文窗口大小对不同任务表现出相当大的鲁棒性。
大型语言模型(LLM)已成为许多机器学习应用中的关键组成部分。然而,训练LLM的标准方法通常需要大量紧密相连的加速器,设备在每一次优化步骤中交换梯度和其他中间状态。虽然构建和维护一个承载许多加速器的单个计算集群很困难,但在承载较少设备的多个计算集群中可能更容易找到解决方案。在这项工作中,我们提出了一种分布式优化算法,名为分布式低通信(DiLoCo),可以实现在连接较差的设备群岛上训练语言模型。该方法是联邦平均的一种变体,内部步骤数量较多,内部优化器为AdamW,外部优化器为Nesterov动量。在广泛使用的C4数据集上,我们展示了8个工作者上的DiLoCo表现与完全同步优化相当,但通信次数减少了500倍。DiLoCo对每个工作者的数据分布表现出很强的鲁棒性。它还能够很好地应对随着时间资源变得不可用,反之亦然,它可以在训练过程中无缝利用变得可用的资源。
近年来,大型语言模型(LLMs)展示了出色的生成能力,但它们能否评判自己生成的质量呢?一个流行的概念,称为自我完善,假设LLMs在被要求时能够检测并纠正其生成中的错误。然而,最近的实证证据指向相反的方向,表明在涉及推理时,LLMs经常难以准确识别错误。为了解决这个问题,我们提出了一个名为ART的推理与完善目标,该目标通过提出必要的问题来决定LLM何时应该完善其输出,并通过对完善和初始预测进行排名来确认或保留对其完善的信任。在两个多步推理任务中,即数学文字问题(GSM8K)和问答(StrategyQA)中,ART相对于自我完善基线实现了+5分的性能增益,同时使用一个更小的模型作为决策者。我们还展示了使用更小的模型来做出完善决策的好处,作为一种成本效益高的替代方案,而不是对更大模型进行微调。
最近,指令遵循的音频语言模型在与人类进行音频交互方面受到了广泛关注。然而,缺乏能够处理各种音频类型和任务的预训练音频模型阻碍了该领域的进展。因此,大多数现有作品只能支持有限范围的交互能力。在本文中,我们开发了Qwen-Audio模型,并通过扩展音频语言预训练范围,涵盖30多项任务和各种音频类型(如人类语音、自然声音、音乐和歌曲),以促进通用音频理解能力,从而解决了这一限制。然而,直接联合训练所有任务和数据集可能会导致干扰问题,因为不同数据集关联的文本标签由于任务焦点、语言、注释粒度和文本结构的差异而存在相当大的变化。为了克服一对多干扰,我们通过在解码器上以一系列分层标签为条件,精心设计了一个多任务训练框架,以鼓励知识共享,并通过共享和指定标签分别避免干扰。值得注意的是,Qwen-Audio在各种基准任务上取得了令人印象深刻的表现,无需任何特定任务的微调,超越了其对手。基于Qwen-Audio的能力,我们进一步开发了Qwen-Audio-Chat,允许接收来自各种音频和文本输入,实现多轮对话并支持各种以音频为中心的场景。
红队测试是减轻大型语言模型(LLMs)中不安全行为的常见做法,涉及彻底评估LLMs以识别潜在缺陷,并用负责任和准确的响应加以解决。虽然有效,但手动红队测试成本高,现有的自动红队测试通常发现安全风险但未加以解决。在本文中,我们提出了一种多轮自动红队测试(MART)方法,结合了自动对抗提示编写和安全响应生成,显著提高了红队测试的可扩展性和目标LLM的安全性。具体而言,对抗LLM和目标LLM以迭代方式相互作用,其中对抗LLM旨在生成具有挑战性的提示,从目标LLM中引发不安全响应,而目标LLM则通过这些对抗提示上的安全对齐数据进行微调。在每一轮中,对抗LLM对更新后的目标LLM制定更好的攻击策略,同时目标LLM也通过安全微调来改进自身。在对抗提示基准测试中,具有有限安全对齐的LLM的违规率在进行4轮MART后降低了高达84.7%,达到了与具有广泛对抗提示编写的LLMs相当的性能。值得注意的是,模型在非对抗提示上的帮助性在迭代过程中保持稳定,表明目标LLM在遵循指令方面保持了良好的性能。