每日精选AI研究论文及翻译
最近,大型语言模型(LLMs)展现出在解决数学问题时出色的推理能力。为了进一步提高这种能力,本研究提出了“从错误中学习”(LeMa)的方法,类似于人类学习过程。考虑一个数学问题解答失败的人类学生,他将从自己犯的错误中学习,并纠正它。模仿这种错误驱动的学习过程,LeMa利用由GPT-4生成的错误-纠正数据对LLMs进行微调。具体而言,我们首先收集来自各种LLMs的错误推理路径,然后利用GPT-4作为“纠正者”来(1)识别错误步骤,(2)解释错误原因,以及(3)纠正错误并生成最终答案。实验结果表明LeMa的有效性:在五个主干LLMs和两个数学推理任务中,LeMa相对于仅在CoT数据上进行微调,始终提高了性能。令人印象深刻的是,LeMa还可以使专门的LLMs(如WizardMath和MetaMath)受益,实现了在GSM8K上85.4%的一次通过准确率和在MATH上27.1%的准确率。这超过了在这些具有挑战性任务上由非执行开源模型实现的SOTA性能。我们的代码、数据和模型将在https://github.com/microsoft/CodeT 上公开提供。
大型多模态模型展示了在零-shot方式下执行多样多模态任务的卓越通用能力。大规模基于网络的图像-文本对对此成功起到了根本性的贡献,但存在着过多的噪音。最近的研究使用由字幕模型合成的替代字幕,并取得了显著的基准性能。然而,我们的实验揭示了在使用合成字幕训练的模型中存在显著的可扩展性不足和世界知识丢失问题,这些问题在其最初的基准成功中被大部分掩盖了。经过更详细的检查,我们确定根本原因是现有合成字幕中过于简化的语言结构和缺乏知识细节。为了提供更高质量和更可扩展的多模态预训练数据,我们提出了CapsFusion,这是一个先进的框架,利用大型语言模型 consolida并精炼来自基于网络的图像-文本对和合成字幕的信息。大量实验表明,CapsFusion字幕在模型性能(例如,在COCO和NoCaps上的CIDEr分数分别提高了18.8和18.3)、样本效率(比基线计算少11-16倍)、世界知识深度和可扩展性方面表现出显著的全面优势。这些有效性、效率和可扩展性优势使CapsFusion成为未来大规模训练大型多模态模型的一个有前途的候选方案。
基于神经网络的计算机视觉系统通常建立在一个骨干结构之上,这个结构可以是预训练的或随机初始化的特征提取器。几年前,首选的默认选项是在ImageNet上训练过的卷积神经网络。然而,最近出现了许多使用不同算法和数据集预训练的骨干结构。虽然这种选择的丰富性提高了各种系统的性能,但从业者很难做出关于选择哪种骨干结构的明智决定。Backbones之战(BoB)通过对一系列预训练模型进行基准测试,包括视觉-语言模型、通过自监督学习训练的模型以及稳定扩散骨干结构,使这种选择变得更加容易,涵盖了从分类到目标检测再到OOD泛化等各种计算机视觉任务。此外,BoB通过对1500多次训练运行进行全面分析,揭示了现有方法的优势和劣势,为研究社区推进计算机视觉提供了有益的方向。尽管视觉Transformer(ViTs)和自监督学习(SSL)越来越受欢迎,我们发现在我们考虑的模型中,以大型训练集监督方式预训练的卷积神经网络在大多数任务中仍表现最佳。此外,在相同架构和相似规模的预训练数据集上进行苹果对苹果比较时,我们发现自监督学习骨干结构具有很高的竞争力,这表明未来的工作应该使用先进的架构和更大的预训练数据集进行自监督学习预训练。我们公开了实验的原始结果以及允许研究人员将他们自己的骨干结构放入考验的代码,链接在这里:https://github.com/hsouri/Battle-of-the-Backbones
离线强化学习(RL)旨在利用预先收集的数据集找到接近最优策略。在现实世界中,数据收集可能既昂贵又有风险;因此,当领域内数据有限时,离线RL变得特别具有挑战性。鉴于大型语言模型(LLMs)及其少样本学习能力的最新进展,本文介绍了一种名为语言模型用于运动控制(LaMo)的通用框架,基于决策Transformer,有效地利用预训练的语言模型(LMs)进行离线RL。我们的框架突出了四个关键组成部分:(1)使用顺序预训练的LMs初始化决策Transformer,(2)采用LoRA微调方法,与完全权重微调相反,以有效结合LMs的预训练知识和领域内知识,(3)使用非线性MLP转换代替线性投影,以生成嵌入,以及(4)在微调过程中集成辅助语言预测损失,以稳定LMs并保留其在语言上的原始能力。实证结果表明,LaMo在稀疏奖励任务中实现了最先进的性能,并在稠密奖励任务中缩小了基于值的离线RL方法和决策Transformer之间的差距。特别是,我们的方法在数据样本有限的情况下表现出优越性能。我们的项目网站是https://lamo2023.github.io
我们在公开在线图灵测试中评估了GPT-4。在表现最佳的GPT-4提示中,有41% 的游戏通过,优于ELIZA(27%)和GPT-3.5(14%)设定的基准,但低于机会和人类参与者设定的基准(63%)。参与者的决策主要基于语言风格(35%)和社会情感特征(27%),支持智能并不足以通过图灵测试的观点。参与者的人口统计信息,包括教育程度和对大型语言模型的熟悉程度,并不能预测检测率,这表明即使是深入了解系统并经常与其互动的人也可能容易受骗。尽管作为智能测试的已知局限性,我们认为图灵测试作为自然交流和欺骗评估仍然具有相关性。具有伪装成人类能力的AI模型可能会产生广泛的社会影响,我们分析了不同策略和标准对人类相似性的评判效果。
AI开发者经常应用安全对齐程序来防止其AI系统被滥用。例如,在Meta发布Llama 2-Chat之前,这是一套经过微调的大型语言模型指令集,他们在安全培训方面投入了大量资源,包括广泛采用红队测试和从人类反馈中进行强化学习。然而,当攻击者可以访问模型权重时,安全培训对防止模型被滥用的效果仍不明确。我们通过对Llama 2-Chat的公共权重进行暗中微调来探讨语言模型安全培训的鲁棒性。我们采用低秩适应(LoRA)作为一种高效的微调方法。在每个模型不到200美元的预算和仅使用一个GPU的情况下,我们成功地撤销了尺寸为7B、13B和70B的Llama 2-Chat模型的安全培训。具体来说,我们的微调技术显著降低了模型拒绝遵循有害指令的比率。我们在两个拒绝基准测试中实现了70B Llama 2-Chat模型的拒绝率低于1%。我们的微调方法保留了通用性能,我们通过将我们的微调模型与Llama 2-Chat在两个基准测试中进行比较来验证这一点。此外,我们展示了我们的模型产生的一些有害输出。尽管目前模型的风险范围存在相当大的不确定性,但未来模型可能具有更为危险的能力,包括入侵关键基础设施、制造危险的生物武器,或者自主复制并适应新环境。我们表明,暗中微调是实用且有效的,因此我们认为,评估微调风险应成为发布模型权重的风险评估的核心部分。
扩散模型是一类生成模型,在诸如图像合成、视频生成和分子设计等任务中取得了创纪录的性能。尽管具备这些能力,其效率,特别是在逆去噪过程中,仍然面临着慢收敛速度和高计算成本的挑战。在这项工作中,我们提出了一种利用连续动力系统来设计新型去噪网络的方法,用于扩散模型,该方法更具参数效率,收敛速度更快,并且表现出更强的噪声鲁棒性。通过对去噪概率扩散模型进行实验,我们的框架与去噪扩散概率模型(DDPMs)中标准U-Net相比,参数约为四分之一,浮点运算(FLOPs)约为30%。此外,我们的模型在相同条件下推断速度比基准模型快高达70%,同时收敛到更优质的解决方案。
大型文本语料库是语言模型的基础。然而,我们对这些语料库的内容,包括一般统计数据、质量、社会因素和包含的评估数据(污染)了解有限。在这项工作中,我们提出了“我的大数据里有什么?”(WIMBD),这是一个平台和一组十六项分析,可以帮助我们揭示和比较大型文本语料库的内容。WIMBD基于两种基本能力——计数和搜索——在规模上进行构建,这使我们能够在标准计算节点上分析超过35 TB的数据。我们将WIMBD应用于用于训练流行语言模型的十个不同语料库,包括C4、The Pile和RedPajama。我们的分析揭示了关于这些语料库的一些令人惊讶且以前未记录的发现,包括重复、合成和低质量内容的高普遍性、个人可识别信息、有毒语言和基准污染。例如,我们发现RedPajama和LAION-2B-en中约50%的文档是重复的。此外,用于对训练在这些语料库上的模型进行基准测试的几个数据集在重要基准测试方面存在污染,包括Winograd Schema Challenge以及GLUE和SuperGLUE的部分内容。我们开源了WIMBD的代码和工件,以提供新的基于文本的语料库的标准评估,并鼓励对其进行更多分析和透明度:github.com/allenai/wimbd。
最近,视频生成在产生逼真结果方面取得了实质性进展。然而,现有的人工智能生成视频通常是非常短的片段(“镜头级”),描绘单个场景。为了呈现连贯的长视频(“故事级”),希望能够在不同片段之间实现创意过渡和预测效果。本文提出了一种短到长视频扩散模型SEINE,专注于生成过渡和预测。其目标是生成质量高且具有流畅且创意的场景过渡以及不同长度的镜头级视频的长视频。具体来说,我们提出了一种基于随机掩码的视频扩散模型,可根据文本描述自动生成过渡。通过提供不同场景的图像作为输入,并结合基于文本的控制,我们的模型生成确保连贯性和视觉质量的过渡视频。此外,该模型可以轻松扩展到各种任务,如图像到视频动画和自回归视频预测。为了对这一新的生成任务进行全面评估,我们提出了三个评估标准以评估流畅和创意的过渡:时间一致性、语义相似性和视频-文本语义对齐。大量实验证实了我们的方法相对于现有的生成过渡和预测方法的有效性,实现了故事级长视频的创作。项目页面:https://vchitect.github.io/SEINE-project/。
为了处理新颖的句子,语言模型(LMs)必须具有组合泛化能力——以新的方式结合熟悉的元素。模型结构的哪些方面促进了组合泛化?针对Transformer,我们测试了一个假设,该假设受到最近理论和实证工作的启发,即当Transformer更深(具有更多层)时,它们更容易进行组合泛化。由于简单地增加层数会增加总参数数量,混淆了深度和规模,我们构建了三类模型,通过在深度和宽度之间进行权衡,使得总参数数量保持恒定(分别为4100万、1.34亿和3.74亿个参数)。我们将所有模型均作为LM进行预训练,并在测试组合泛化的任务上进行微调。我们得出三个主要结论:(1)微调后,更深的模型在分布外泛化比较浅的模型更好,但额外层的相对益处迅速减少;(2)在每个系列内,更深的模型表现出更好的语言建模性能,但回报同样减少;(3)深度对组合泛化的好处不能仅归因于在语言建模或分布内数据上的更好表现。
ChipNeMo旨在探索大型语言模型(LLMs)在工业芯片设计中的应用。我们不直接使用现成的商业或开源LLMs,而是采用以下领域自适应技术:定制分词器、领域自适应持续预训练、带有领域特定指令的监督微调(SFT)和领域自适应检索模型。我们在芯片设计的三个选定的LLM应用上评估了这些方法:工程助手聊天机器人、EDA脚本生成以及错误摘要和分析。我们的结果显示,这些领域自适应技术能够显著提高LLM在这三个评估应用中的性能,使得在各种设计任务上,模型尺寸最多能减小5倍,而性能相似或更好。我们的发现还表明,我们当前结果与理想结果之间仍有改进空间。我们相信,进一步研究领域自适应LLM方法将有助于未来缩小这一差距。
LLM-based智能代理的自动评估对于开发先进的LLM-based代理至关重要。尽管已经付出了相当大的努力来开发人工注释的评估数据集,例如AlpacaEval,但现有技术昂贵、耗时且缺乏适应性。在本文中,受流行语言游戏“谁是卧底”的启发,我们提出使用猜词游戏来评估LLM的智能表现。给定一个词,要求LLM描述这个词并根据自己和其他玩家的描述确定其身份(卧底或非卧底)。理想情况下,一个先进的代理应该具备准确描述给定词汇的能力,同时在保守描述中最大程度地制造混淆,增强其在游戏中的参与度。为此,我们首先开发了DEEP来评估LLM的表达和伪装能力。DEEP要求LLM以激进和保守的方式描述一个词汇。然后,我们引入了SpyGame,这是一个互动式多代理框架,旨在通过参与竞争性基于语言的棋盘游戏来评估LLM的智能。SpyGame融入了多代理互动,要求目标LLM具备语言技能和战略思维,提供了对LLM类人认知能力和在复杂沟通情境中的适应能力更全面的评估。所提出的评估框架非常易于实施。我们从多个来源、领域和语言收集了词汇,并使用所提出的评估框架进行实验。大量实验证明,所提出的DEEP和SpyGame有效评估了各种LLM的能力,捕捉了它们适应新情况并进行战略沟通的能力。