每日精选AI研究论文及翻译
大型语言模型(LLMs)在学术界和工业界越来越受欢迎,这归功于它们在各种应用中表现出的前所未有的性能。随着LLMs在研究和日常使用中继续发挥关键作用,对它们的评估变得越来越关键,不仅在任务层面,还在社会层面,以更好地理解它们潜在的风险。在过去的几年里,人们已经做出了重大努力,从各种角度审视LLMs。本文综述了针对LLMs的这些评估方法,重点关注三个关键维度:评估什么、在哪里评估以及如何评估。首先,我们从评估任务的角度提供了一个概述,涵盖了一般自然语言处理任务、推理、医疗用途、伦理、教育、自然和社会科学、代理应用以及其他领域。其次,我们通过深入研究评估方法和基准来回答“在哪里”和“如何”这两个问题,这些是评估LLMs性能的关键组成部分。然后,我们总结了LLMs在不同任务中的成功和失败案例。最后,我们对LLMs评估面临的几个未来挑战进行了探讨。我们的目标是为LLMs评估领域的研究人员提供宝贵的见解,从而促进更有效的LLMs的发展。我们的关键观点是,评估应被视为更好地协助LLMs发展的一门重要学科。我们始终保持相关的开源材料在以下链接中:https://github.com/MLGroupJLU/LLM-eval-survey。
尽管最近的语言模型能够接受长文本作为输入,但关于语言模型在使用更长上下文时的表现如何,我们知之甚少。我们分析了语言模型在两个需要识别输入上下文中相关信息的任务上的表现:多文档问答和键-值检索。我们发现,当相关信息出现在输入上下文的开头或结尾时,性能往往最好,而当模型需要访问长上下文中间的相关信息时,性能会明显下降。此外,随着输入上下文变得更长,即使对于明确设计用于长上下文的模型,性能也会显著降低。我们的分析有助于更好地理解语言模型如何使用其输入上下文,并为未来长上下文模型提供新的评估方案。
许多认知方法来提升幸福感,比如识别和重构无益思维,在过去几十年中得到了相当多的实证支持,但在自助格式中仍然缺乏真正广泛的采纳。导致这种采纳困难的一个障碍是缺乏足够具体和多样化的专门练习材料。本研究探讨了当前语言模型是否能够被利用来产生大量实践材料,展示标准无益思维模式匹配特定给定背景,并生成适当的积极重构建议。我们提出了PATTERNREFRAME,一个包含约10k个思维示例的新颖数据集,这些示例包含无益思维模式,根据给定人物条件,伴随着约27k个积极重构。通过使用这个数据集来训练和/或评估当前模型,我们展示了现有模型已经可以成为强大的工具,帮助生成大量量身定制的练习材料和假设,而无需或只需最少额外的模型训练。
大型语言模型具有出色的能力以一种上下文方式整合新信息。然而,这种方法的全部潜力通常受到有效上下文长度的限制。解决这个问题的一个方法是赋予注意力层访问外部存储器的能力,该存储器由(键,值)对组成。然而,随着文档数量的增加,相关键与不相关键的比例减少,导致模型更多地关注不相关键。我们确定了一个重要挑战,称为分心问题,其中与不同语义值相关联的键可能重叠,使它们难以区分。为了解决这个问题,我们引入了Focused Transformer(FoT),这是一种采用对比学习启发的训练过程的技术。这种新颖方法增强了(键,值)空间的结构,使上下文长度得以延伸。我们的方法允许微调现有的大规模模型,以延长其有效上下文。通过我们对3B和7B OpenLLaMA检查点的微调,我们证明了这一点。产生的模型,我们称之为LongLLaMA,在需要长上下文的任务中展现出进展。我们进一步说明,我们的LongLLaMA模型能够熟练地管理256k上下文长度以进行通行证检索。
本文关注最近的自动语音识别模型Whisper,该模型是通过在多种条件下录制的大规模680k小时标记语音语料库进行训练的。我们首先展示了一个有趣的发现,即虽然Whisper对真实世界的背景声音(例如音乐)非常稳健,但其音频表示实际上并非噪声不变,而是与非语音声音高度相关,表明Whisper是根据噪声类型识别语音的。基于这一发现,我们构建了一个统一的音频标记和语音识别模型Whisper-AT,通过冻结Whisper的主干结构,并在其之上训练一个轻量级音频标记模型。在不到1%的额外计算成本下,Whisper-AT可以在单次前向传递中识别音频事件,除了识别口头文本。
自回归大型语言模型(LLMs)在各种自然语言生成任务中取得了显著进展。然而,由于自回归逐标记生成,它们产生了高计算成本和延迟。为了解决这一问题,已经提出了几种方法来减少计算成本,使用提前退出策略。这些策略可以通过减少计算量来实现更快的文本生成,而无需对每个标记应用完整的计算图。虽然现有的标记级提前退出方法在在线推断中显示出有希望的结果,但无法直接应用于批量推断和键-值缓存。这是因为它们必须等到批次中的最后一个标记退出后才能停止计算。这严重限制了这些技术的实际应用。在本文中,我们提出了一种简单而有效的标记级提前退出方法SkipDecode,旨在与批量推断和KV缓存无缝配合。它通过在每个序列位置为批次中的每个标记设置一个独立的退出点来克服先前的限制。它还保证退出点的单调减少,从而消除了为前面的标记重新计算KV缓存的需要。与先前的作品不同,我们的方法不会过早终止计算,而是绕过较低到中间层,将大部分计算资源用于上层,使后续标记能够从先前标记的计算支出中受益。我们的实验结果表明,SkipDecode可以在各种任务中实现2倍到5倍的推断加速,同时在1.3亿和6.7亿参数的OPT模型中实现,完全兼容批处理和KV缓存优化技术。
我们使用精心设计的实验方案评估现有基础模型在视频理解能力方面的表现,该实验方案包括三个标志性任务(动作识别、时间定位和时空定位)、社区广泛认可的八个数据集以及四种为下游任务定制基础模型(FM)的适应方法。此外,我们提出了一个标量VideoGLUE分数(VGS),用于衡量基础模型(FM)在适应一般视频理解任务时的有效性和效率。我们的主要发现如下。首先,与自然语言和图像理解中基础模型所取得的成就形成鲜明对比,本研究中研究的六个基础模型明显不及任务专门化模型。其次,包含视频模态的视频原生FM在分类运动丰富的视频、时间上定位动作以及理解包含多个动作的视频方面通常优于包含图像模态的FM。第三,视频原生FM在轻微适应下游任务(例如冻结FM主干)时可以在视频任务上表现良好,而图像原生FM在全面端到端微调中获胜。前两个观察结果揭示了在视频焦点基础模型上进行研究的必要性和巨大机遇,最后确认了任务和适应方法在评估基础模型时的重要性。