每日精选AI研究论文及翻译
旋转位置嵌入(RoPE)已被证明能够有效地在基于Transformer的语言模型中编码位置信息。然而,这些模型在无法泛化超出它们训练时的序列长度。我们提出了YaRN(另一种RoPE扩展方法),这是一种计算高效的方法,可以扩展这些模型的上下文窗口,只需要10倍的标记和2.5倍的训练步骤,比先前的方法少。使用YaRN,我们展示LLaMA模型可以有效地利用和推断出比其原始预训练允许的上下文长度长得多得多,同时也超过了以前的上下文窗口扩展的最新技术水平。此外,我们展示了YaRN具有超越微调数据集有限上下文的能力。我们发布了使用64k和128k上下文窗口进行YaRN微调的Llama 2 7B/13B的检查点,网址为https://github.com/jquesnelle/yarn
人类反馈强化学习(RLHF)在使大型语言模型(LLMs)与人类偏好保持一致方面非常有效,但收集高质量的人类偏好标签是一个关键瓶颈。我们对RLHF和来自人工智能反馈(RLAIF)的强化学习进行了一对一的比较。RLAIF是一种技术,其中偏好由现成的LLM标记,而非人类。我们发现它们带来了类似的改进。在摘要任务中,人类评估者在约70%的情况下更喜欢RLAIF和RLHF生成的结果,而不是基线监督微调模型。此外,当被要求评价RLAIF和RLHF的摘要时,人类以相同的比例更喜欢两者。这些结果表明,RLAIF可以实现人类水平的性能,为RLHF的可扩展性限制提供了潜在解决方案。
本文介绍了VideoGen,一种文本到视频生成方法,可以利用参考引导的潜在扩散生成高清晰度视频,具有高帧保真度和强时间一致性。我们利用现成的文本到图像生成模型,例如Stable Diffusion,从文本提示生成内容质量高的图像,作为引导视频生成的参考图像。然后,我们引入了一个高效的级联潜在扩散模块,该模块以参考图像和文本提示为条件,用于生成潜在视频表示,然后通过基于流的时间上采样步骤来提高时间分辨率。最后,我们通过增强的视频解码器将潜在视频表示映射到高清晰度视频中。在训练过程中,我们使用地面真实视频的第一帧作为级联潜在扩散模块的训练参考图像。我们方法的主要特点包括:文本到图像模型生成的参考图像提高了视觉保真度;将其用作条件使扩散模型更加关注学习视频动态;视频解码器在未标记的视频数据上进行训练,从而受益于高质量易获得的视频。在定性和定量评估方面,VideoGen在文本到视频生成领域取得了新的技术水平。
在他引入信息论的开创性论文中,香农将通信分为三个层次:技术、语义和效果。技术层面关注于准确重建传输符号,而语义和效果层面则涉及推断含义及其对接收者的影响。得益于电信技术,第一层面的问题已经取得了像互联网这样的巨大进展。大型语言模型(LLMs)在第二个目标上取得了一些进展,但第三个层面仍然基本未被触及。第三个问题涉及预测和优化通信以实现期望的接收者行为。LLMs虽然展现出在各种任务上的广泛泛化能力,但无法解决这个问题。造成表现不佳的一个原因可能是LLMs训练语料库中缺乏“行为标记”。行为标记定义了通信过程中接收者的行为,如分享、点赞、点击、购买、转发等。在为LLMs训练预处理数据时,通常会将行为标记从语料库中移除以减少干扰。因此,在本文中,我们在LLMs训练中初步尝试重新引入行为标记。训练的模型不仅在内容理解任务上表现出与LLMs相似的性能,还展现出在行为模拟、内容模拟、行为理解和行为领域适应方面的泛化能力。通过在两个语料库上进行各种任务,我们展示了所有这些能力的结果。我们将这些模型称为大型内容和行为模型(LCBMs)。此外,为了激励更多关于LCBMs的研究,我们发布了我们的新内容行为语料库(CBC),这是一个包含通信者、消息和相应接收者行为的存储库。
计算机视觉模型在性别和肤色等属性上存在已知的性能差异。这意味着在诸如分类和检测的任务中,模型的性能会基于图像中人群的人口统计学特征而有所不同。这些差异已被证明存在,但直到现在还没有统一的方法来衡量计算机视觉模型常见用例中的这些差异。我们提出了一个名为FACET(FAirness in Computer Vision EvaluaTion)的新基准,这是一个包含32k图像的大型、公开可用的评估集,用于一些最常见的视觉任务 - 图像分类、目标检测和分割。对于FACET中的每个图像,我们雇佣专家评审员手动注释人物相关属性,如肤色和发型,手动绘制边界框,并标记细粒度的人物相关类别,如碟片骑师或吉他手。此外,我们使用FACET来评估最先进的视觉模型,并深入了解敏感人口统计属性之间的潜在性能差异和挑战。通过收集详尽的注释,我们使用单一人口统计属性以及交叉方法(例如头发颜色和肤色)来测试模型。我们的结果表明,分类、检测、分割和视觉定位模型在人口统计属性和属性交叉上表现出性能差异。这些伤害表明,并非所有出现在数据集中的人在这些视觉任务中都能获得公平和公正的对待。我们希望使用我们的基准的当前和未来结果将有助于构建更公平、更健壮的视觉模型。FACET可在https://facet.metademolab.com/ 上公开获取。