每日精选AI研究论文及翻译
在开放式场景中评估大型语言模型(LLMs)具有挑战性,因为现有的基准和度量无法全面衡量它们。为解决这一问题,我们提出将LLMs微调为可扩展的评判者(JudgeLM),以在开放式基准中高效有效地评估LLMs。我们首先提出了一个包含任务种子、LLMs生成答案以及GPT-4生成判断的全面、大规模、高质量数据集,用于微调高性能评判者,以及用于评估评判者的新基准。我们从7B、13B到33B参数规模训练JudgeLM,并对其能力和行为进行系统分析。然后,我们分析了将LLMs微调为评判者时的关键偏见,并将其视为位置偏见、知识偏见和格式偏见。为解决这些问题,JudgeLM引入了一系列技术,包括交换增强、参考支持和参考剔除,明显提升了评判者的性能。JudgeLM在现有的PandaLM基准和我们提出的新基准上均取得了最先进的评判者性能。我们的JudgeLM高效,而JudgeLM-7B仅需3分钟即可使用8个A100 GPU对5K个样本进行评判。JudgeLM与教师评判者达成高度一致,达成的一致性超过90%,甚至超过人际一致性。JudgeLM还展示了作为单一答案、多模态模型、多个答案和多轮对话评判者的扩展能力。
我们介绍了HyperFields,这是一种通过单次前向传递(可选进行一些微调)生成文本条件的神经辐射场(NeRFs)的方法。我们方法的关键在于:(i)动态超网络,学习从文本标记嵌入到NeRFs空间的平滑映射;(ii)NeRF蒸馏训练,将编码在各个NeRFs中的场景蒸馏成一个动态超网络。这些技术使得单个网络能够适应超过一百个独特场景。我们进一步证明了HyperFields学习了更通用的文本与NeRFs之间的映射,因此能够预测新颖的分布内和分布外场景,包括零样本或经过少量微调步骤。通过学习的通用映射,对HyperFields进行微调可以加速收敛,并且能够比现有的基于神经优化的方法更快地合成新颖场景,速度提高了5到10倍。我们的消融实验表明,动态架构和NeRF蒸馏对于HyperFields的表达能力至关重要。
我们提出了控制解码(CD)这一新颖的离策略强化学习方法,用于控制语言模型自回归生成朝着高奖励结果发展。CD通过一个称为前缀评分器的奖励值函数解决了一个离策略强化学习问题。前缀评分器在推断时用于引导生成朝着更高奖励结果发展。我们展示了前缀评分器可以在(可能是)离策略数据上进行训练,以预测从部分解码响应继续解码时的预期奖励。我们在 Reddit 对话语料库上通过实证方法证明了 CD 作为控制机制的有效性。我们还展示了 CD 设计的模块化使得可以控制多个奖励,有效解决了多目标强化学习问题,而无需增加复杂性。最后,我们展示了 CD 可以以一种新颖的分块方式在推断时应用,同样无需进行任何训练时更改,实质上弥合了流行的最佳-K 策略和基于标记级强化学习之间的差距。这使得 CD 成为对齐语言模型的一种有前途的方法。
拥有数千亿参数的大型语言模型(LLMs)引发了一波新激动人心的人工智能应用。然而,在推断时它们的计算成本很高。稀疏性是减少这种成本的一种自然方法,但现有方法要么需要昂贵的重新训练,要么必须放弃LLM的上下文学习能力,要么在现代硬件上无法实现挂钟时间加速。我们假设上下文稀疏性,即产生大致相同输出结果的小型、输入相关的注意力头和MLP参数集合,可以解决这些问题。我们展示了上下文稀疏性的存在,它可以被准确预测,并且我们可以利用它加速LLM的推断过程,而不会影响LLM的质量或上下文学习能力。基于这些见解,我们提出了DejaVu,这是一个系统,它使用低成本算法根据每一层的输入动态预测上下文稀疏性,同时采用异步和硬件感知实现来加速LLM的推断。我们验证了DejaVu相较于最先进的FasterTransformer,以及广泛使用的Hugging Face实现,可以将OPT-175B的推断延迟缩短超过2倍,而且超过6倍,而不会影响模型质量。代码可在https://github.com/FMInference/DejaVu找到。