每日精选AI研究论文及翻译
我们提出了LENS,这是一种模块化方法,通过利用大型语言模型(LLMs)的强大能力来解决计算机视觉问题。我们的系统使用语言模型对一组独立且高度描述性的视觉模块的输出进行推理,这些模块提供有关图像的详尽信息。我们在纯计算机视觉设置下评估了这种方法,如零样本和少样本目标识别,以及视觉和语言问题。LENS可以应用于任何现成的LLM,我们发现具有LENS的LLMs表现非常竞争力,甚至比更大更复杂的系统表现更好,而且完全没有进行多模态训练。我们在https://github.com/ContextualAI/lens 开源了我们的代码,并提供了一个交互式演示。
生成式人工智能和大型语言模型在增强计算机教育方面具有巨大潜力,可为初级编程提供下一代教育技术支持。最近的研究已经探讨了这些模型在与编程教育相关的不同场景中的应用;然而,由于通常考虑的是已经过时的模型或仅具体情景,这些研究存在一些限制。因此,目前缺乏一个系统性研究来对一系列编程教育场景中的最新模型进行基准测试。在我们的研究中,我们系统评估了两个模型,ChatGPT(基于GPT-3.5)和GPT-4,并将它们与人类导师在各种场景下的表现进行比较。我们使用五个初级Python编程问题和来自在线平台的真实错误程序进行评估,并利用基于专家的注释来评估性能。我们的结果显示,GPT-4明显优于ChatGPT(基于GPT-3.5),并在几个场景中接近人类导师的表现。这些结果还突显了GPT-4仍然存在困难的情景,为未来改进这些模型性能的技术提供了令人兴奋的方向。
基因组(DNA)序列编码了大量关于基因调控和蛋白质合成的信息。类似自然语言模型,研究人员提出了基因组学中的基础模型,以从未标记的基因组数据中学习可泛化特征,然后对其进行微调,用于识别调控元素等下游任务。由于注意力的二次扩展,先前基于Transformer的基因组模型使用512到4k个标记作为上下文(<0.001%的人类基因组),严重限制了对DNA中长程相互作用的建模。此外,这些方法依赖于分词器来聚合有意义的DNA单元,丢失了单核苷酸分辨率,其中微小的遗传变异可以通过单核苷酸多态性(SNPs)完全改变蛋白功能。最近,基于隐式卷积的大型语言模型Hyena展示了与注意力相匹配的质量,同时允许更长的上下文长度和更低的时间复杂度。利用Hyena新的长程能力,我们提出了HyenaDNA,这是一个基因组基础模型,使用人类参考基因组进行预训练,上下文长度可达到100万个标记的单核苷酸级别,比先前基于密集注意力的模型提高了500倍。HyenaDNA在序列长度上呈次二次方缩放(训练速度比Transformer快160倍),使用单核苷酸标记,并在每一层具有完整的全局上下文。我们探索更长上下文可以实现的内容,包括在基因组学中首次使用上下文内学习,以便简单地适应新任务而无需更新预训练模型权重。在来自Nucleotide Transformer的微调基准上,HyenaDNA在17个数据集中有12个达到了最先进水平(SotA),使用的模型参数和预训练数据量级较少。在GenomicBenchmarks上,HyenaDNA在8个数据集上平均超过SotA,准确度提高了9个点。
指令调整释放了大型语言模型(LLM)与人类互动的卓越能力。此外,最近的指令遵循数据集包括图像作为视觉输入,收集基于图像指令的响应。然而,视觉指令调整模型无法很好地理解图像中的文本细节。本研究通过文本丰富的图像(如电影海报、书籍封面等)增强了当前的视觉指令调整流程。具体而言,我们首先使用公开可用的OCR工具从LAION数据集的422K文本丰富图像中收集结果。此外,我们使用识别的文本和图像标题提示仅文本的GPT-4生成了16K对话,每个对话包含了针对文本丰富图像的问答对。通过将我们收集的数据与先前的多模态指令遵循数据相结合,我们的模型LLaVAR在文本为基础的VQA数据集上显著提升了LLaVA模型的能力(准确率提高了高达20%),同时在ScienceQA上实现了91.42%的准确率。基于GPT-4的指令遵循评估还展示了我们的模型在自然图像和文本丰富图像上的改进。通过定性分析,LLaVAR展示了与人类基于最新结合文本和图像的真实在线内容的互动能力(如推理、写作和阐述)技能。我们将我们的代码/数据/模型公开发布在https://llavar.github.io/。
大型语言模型(LLMs)可能无法公平地代表社会问题上多元化的全球观点。在本文中,我们开发了一个定量框架来评估模型生成的回答更类似于谁的观点。我们首先构建了一个数据集GlobalOpinionQA,其中包含来自跨国调查的问题和答案,旨在捕捉不同国家对全球问题的多元化观点。接下来,我们定义了一个度量标准,量化了LLM生成的调查回答与人类回答之间的相似性,条件是国家。通过我们的框架,我们对一个经过宪法AI训练以帮助、诚实和无害的LLM进行了三个实验。默认情况下,LLM的回答往往更类似于某些人口群体的观点,比如来自美国、欧洲和南美洲的国家,突显了偏见的潜在性。当我们提示模型考虑特定国家的视角时,回答会转变为更类似于被提示人口群体的观点,但可能反映出有害的文化刻板印象。当我们将GlobalOpinionQA问题翻译成目标语言时,模型的回答不一定会变得最类似于那些语言使用者的观点。我们发布了我们的数据集供他人使用和构建。我们的数据位于https://huggingface.co/datasets/Anthropic/llm_global_opinions。我们还提供了一个交互式可视化网站,网址为https://llmglobalvalues.anthropic.com。
去噪扩散模型最近在生成任务中展现出令人印象深刻的结果。通过从大量训练图像集合中学习强大的先验知识,这些模型能够逐渐将完全噪声转换为清晰自然图像,通过一系列小的去噪步骤,似乎使它们非常适合单图像去噪。然而,有效地将去噪扩散模型应用于去除现实噪声比看起来更具挑战性,因为它们的制定基于加性白噪声高斯模型,而不是真实世界图像中的噪声。在这项工作中,我们提出了SVNR,一种新颖的去噪扩散形式,假设更现实的、空间变异的噪声模型。SVNR使得可以使用带噪输入图像作为去噪扩散过程的起点,同时对该过程进行调节。为此,我们调整了扩散过程,使每个像素都有自己的时间嵌入,并提出了支持空间变化时间映射的训练和推理方案。我们的形式化还考虑了存在于条件图像和沿修改后的扩散过程的样本之间的相关性。在实验中,我们展示了我们的方法相对于强大的扩散模型基线以及最先进的单图像去噪方法的优势。
自动检测和分析失败执行的能力对于一个可解释且健壮的机器人系统至关重要。最近,大型语言模型(LLMs)已经展示了在文本输入上强大的常识推理能力。为了利用LLM的能力来解释机器人的故障,我们提出了一个名为REFLECT的框架,它将多感官数据转换为机器人过去经验的分层摘要,并使用渐进式故障解释算法向LLM提出查询。根据解释,一个故障修正规划器生成一个可执行计划,使机器人纠正故障并完成任务。为了系统评估这个框架,我们创建了RoboFail数据集,并展示了我们基于LLM的框架能够生成有助于成功修正规划的信息性故障解释。项目网站:https://roboreflect.github.io/
大型语言模型(LLMs)展示了出色的能力,适用于广泛的应用领域,但准确性仍然是一个主要的增长领域,特别是在生物医学等关键领域。一种有效的方法来校准LLM响应的置信水平对于自动检测错误并促进人机协作验证至关重要。校准信号的一个重要来源来自专家规定的程序化监督,通常成本较低,但也有自身的局限性,如噪声和覆盖范围。在本文中,我们介绍了一种帕累托最优自我监督框架,可以利用可用的程序化监督系统地校准LLM响应,为每个响应生成风险评分,而无需额外的手动工作。这是通过学习一个协调模型来使LLM输出与其他可用的监督来源对齐来实现的,该模型会为更不确定的LLM响应分配更高的风险评分,并促进错误校正。在生物医学和一般领域的标准关系抽取任务上的实验表明了这种方法的潜力,我们提出的风险评分与LLMs的真实错误率高度相关。对于最不确定的测试实例,基于我们提出的风险评分的动态提示显著提高了现成的LLMs的准确性,在具有挑战性的评估数据集上,将GPT-3的结果提升至最新技术(SOTA)弱监督水平以上,将GPT-4的结果提升至SOTA监督结果以上。
最近的端到端自动语音识别(ASR)系统通常采用基于Transformer的声学编码器,以高帧率生成嵌入。然而,由于自注意力计算的二次复杂度,这种设计在处理长语音信号时效率低下。为了解决这个问题,我们提出了一种新方法,即相邻标记合并(A-ToMe),逐渐结合具有高相似性分数的相邻标记及其关键值。通过这种方式,总时间步骤可以减少,并加快编码器和联合网络的推理速度。在LibriSpeech上的实验表明,我们的方法可以减少57%的标记,并在GPU上将推理速度提高了70%,而准确性几乎没有明显损失。此外,我们证明A-ToMe也是减少长篇ASR中标记的有效解决方案,其中输入语音包含多个话语。