每日精选AI研究论文及翻译
最近的研究集中在通过模仿学习来增强较小模型的能力,利用大型基础模型(LFMs)生成的输出。许多问题影响了这些模型的质量,从浅层LFM输出中有限的模仿信号;小规模同质训练数据;尤其是缺乏严格评估导致高估小模型的能力,因为它们倾向于学习模仿LFMs的风格,而非推理过程。为了解决这些挑战,我们开发了Orca(我们正在与法律团队合作,根据LLaMA的发布政策公开发布模型权重的差异,将在https://aka.ms/orca-lm上发布),这是一个拥有130亿参数的模型,学习模仿LFMs的推理过程。Orca从GPT-4获得丰富的信号,包括解释追踪;逐步思考过程;和其他复杂指令,通过ChatGPT的教师辅助进行引导。为了促进这种渐进式学习,我们利用大规模和多样化的模仿数据进行审慎的抽样和选择。Orca在复杂的零-shot推理基准测试(如Big-Bench Hard,BBH)上比传统的最先进的指令调整模型(如Vicuna-13B)提高了100%以上,AGIEval上提高了42%。此外,Orca在BBH基准测试上达到了与ChatGPT的平等水平,并在专业和学术考试(如SAT、LSAT、GRE和GMAT)中表现出竞争力(与优化系统消息相比有4个点的差距),在没有CoT的零-shot设置中,略逊于GPT-4。我们的研究表明,从逐步解释中学习,无论这些是由人类还是更先进的AI模型生成的,都是改进模型能力和技能的一个有前途的方向。
大型语言模型通常是在经过筛选的网络数据和精心策划的高质量语料库(如社交媒体对话、书籍或技术论文)的混合训练中产生的。人们认为这种策划过程对于生成性能优越、具有广泛零样本泛化能力的模型是必要的。然而,随着需要在数万亿标记上进行预训练的更大型模型的出现,策划的可扩展性以及我们是否很快会耗尽独特的高质量数据尚不清楚。与先前的观点相悖,我们展示了仅经过适当筛选和去重的网络数据就能够产生强大的模型;甚至在性能上明显优于基于The Pile训练的最先进模型。尽管经过了大量筛选,我们从网络中提取的高质量数据仍然很丰富,我们能够从CommonCrawl获取五万亿标记。我们公开发布了从我们的RefinedWeb数据集中提取的6000亿标记的样本,以及在其上训练的1.3/7.5B参数的语言模型。
最近的分段任意模型(SAM)代表了在扩展分割模型方面的重大进展,实现了强大的零样本能力和灵活的提示功能。尽管SAM经过了11亿个蒙版的训练,但在许多情况下,SAM的蒙版预测质量仍然不足,特别是在处理结构复杂的对象时。我们提出了HQ-SAM,为SAM配备了准确分割任何对象的能力,同时保持了SAM的原始提示设计、高效性和零样本泛化能力。我们精心设计了重用和保留SAM预训练模型权重的方法,仅引入了最少的额外参数和计算。我们设计了一个可学习的高质量输出标记,将其注入SAM的蒙版解码器中,负责预测高质量蒙版。我们不仅仅将其应用于蒙版解码器特征,还首先将其与早期和最终的ViT特征融合,以改善蒙版细节。为了训练我们引入的可学习参数,我们组成了一个包含来自多个来源的4.4万个细粒度蒙版的数据集。HQ-SAM仅在引入的4.4万个蒙版数据集上进行训练,仅需在8个GPU上花费4小时。我们展示了HQ-SAM在9个不同下游任务的多样化分割数据集中的有效性,其中有7个是通过零样本转移协议进行评估的。我们的代码和模型将在https://github.com/SysCV/SAM-HQ发布。
我们提出了LLM-Blender,这是一个集成框架,旨在通过利用多个开源大型语言模型(LLMs)的多样优势,实现始终优越的性能。我们的框架包括两个模块:PairRanker和GenFuser,解决了不同示例的最佳LLMs可能显著变化的观察。PairRanker采用专门的成对比较方法来区分候选输出之间的细微差异。它联合编码输入文本和一对候选项,使用交叉注意力编码器来确定哪个更优。我们的结果表明,PairRanker与基于ChatGPT的排名具有最高的相关性。然后,GenFuser旨在合并排名靠前的候选项,通过利用它们的优势并减轻它们的弱点,生成一个改进的输出。为了促进大规模评估,我们引入了一个基准数据集MixInstruct,这是多个指令数据集的混合,具有oracle成对比较。我们的LLM-Blender在各种指标上明显优于单个LLMs和基准方法,确立了实质性的性能差距。
大型语言模型(LLMs)是指令跟随者,但在不同情况下找到最佳指令可能具有挑战性,尤其是对于禁止反向传播的黑盒LLMs。我们并非直接优化离散指令,而是优化应用于开源LLM的低维软提示,以生成黑盒LLM的指令。在所提出的方法InstructZero的每次迭代中,将软提示转换为指令,然后将其提交给黑盒LLM进行零次评估,并将性能发送到贝叶斯优化以生成改进零次性能的新软提示。我们在不同组合的开源LLMs和API上评估了InstructZero,包括Vicuna和ChatGPT。我们的结果表明,在各种下游任务中,InstructZero优于SOTA自动指令方法。我们的代码和数据可在https://github.com/Lichang-Chen/InstructZero 上公开获取。
语言模型(LMs)经常表现出不良的文本生成行为,包括生成虚假、有毒或无关的输出。最近,从人类反馈中进行强化学习(RLHF)——即将人类对LM输出的偏好判断转化为学习信号——已显示出在解决这些问题方面的潜力。然而,这种整体反馈在长文本输出上传达的信息有限;它并不表明输出的哪些方面影响了用户的偏好;例如,哪些部分包含了哪种类型的错误。在本文中,我们使用细粒度人类反馈(例如,哪个句子是虚假的,哪个子句是无关的)作为明确的训练信号。我们引入了细粒度RLHF,这是一个框架,可以使训练和学习来自两个方面细粒度的奖励函数:(1)密度,即在生成每个片段(例如,一个句子)后提供奖励;以及(2)结合与不同反馈类型相关的多个奖励模型(例如,事实不正确、无关和信息不完整)。我们进行了解毒和长格式问答的实验,以说明使用这种奖励函数进行学习如何提高性能,得到了自动和人工评估的支持。此外,我们展示了可以使用不同组合的细粒度奖励模型定制LM行为。我们在https://FineGrainedRLHF.github.io 上发布了所有数据、收集的人类反馈和代码。
差分隐私(DP)训练方法,如DP-SGD,可以保护敏感训练数据,确保机器学习模型不会泄露私人信息。本文研究的另一种方法是使用敏感数据集生成新的合成数据集,该数据集相对于原始数据是具有差分隐私性质的。这样做有几个优点:合成数据可用于其他任务(包括超参数调整),可以无限期保留,或与第三方共享而不损害隐私。 然而,获取差分隐私数据比在训练过程中引入差分隐私要困难得多。为了使其对文本可行,最近的研究利用公共数据,从预训练的生成语言模型开始,然后在敏感数据上进行私人微调。这个模型可以用来采样差分隐私的合成数据集。虽然这种策略看起来很简单,但实施起来却存在问题。先前的方法要么表现出明显的性能损失,要么像我们展示的那样存在关键设计缺陷。 在本文中,我们展示了一个适当的训练目标以及调整更少参数会产生出色的差分隐私合成数据质量。我们的方法在下游分类器的性能方面与直接进行差分隐私训练相竞争。我们还展示了我们的差分隐私合成数据不仅对下游分类器训练有用,而且对调整这些模型也很有帮助。
最近发布的ChatGPT模型展示了在零样本问答方面前所未有的能力。在这项工作中,我们探究了ChatGPT的对话理解能力,并引入了一个可在未来研究中采用的对话框架(协议)。由于其封闭世界假设,Pokémon宇宙是审核ChatGPT推理能力的理想测试场所。在揭示ChatGPT对Pokémon宇宙的背景知识后,我们测试了其在战斗场景中使用这些概念的推理过程。然后,我们评估其获取新知识并将其纳入推理过程的能力。我们的最终目标是评估ChatGPT的泛化能力、特征组合能力,以及从人类反馈中获取和推理新引入知识的能力。我们发现,ChatGPT具有Pokémon宇宙的先验知识,在战斗场景中能够在很大程度上进行推理,即使引入新信息。该模型在有协作反馈和初始信息检索阶段时表现更好,但有时会产生幻觉,并容易受到对抗性攻击的影响。
基于静态输入和输出对大型语言模型(LLMs)进行评估的标准方法对于开发助手是不足够的:这种评估方式未能考虑到其部署中的基本交互元素,从而限制了我们对语言模型能力的理解。我们引入了CheckMate,这是一个适应性强的原型平台,供人类与LLMs进行交互和评估。我们使用CheckMate进行了一项研究,评估了三种语言模型(InstructGPT、ChatGPT和GPT-4)作为助手在证明本科水平数学方面的表现,参与者包括本科生和数学教授。我们发布了由此产生的交互和评分数据集MathConverse。通过分析MathConverse,我们得出了一个初步的人类行为分类法,并发现尽管通常存在正相关性,但在LLMs生成中存在明显的正确性与被认为有帮助性之间的分歧等其他发现。此外,我们通过一系列由专业数学家提供的案例研究,识别了GPT-4在数学推理中的有用场景和现有问题。最后,我们为机器学习从业者和数学家提供了可操作的经验教训:能够传达不确定性、对用户更正做出良好响应、更易解释和简洁的模型可能构成更好的助手;交互式评估是持续了解这些模型能力的一种有前途的方式;人类应当意识到语言模型的代数缺陷,并因此判断它们应该被使用的地方。
大型语言模型(LLMs)最近取得的成功标志着人工通用智能迈出了令人瞩目的一步。它们展现出在用户指令下自动完成任务的前景,并充当类似大脑的协调者。随着我们将越来越多的任务委托给机器进行自动化完成,相关风险将逐渐显现。一个重要问题浮现:在帮助人类自动化任务作为个人副驾驶员时,我们如何确保机器行为负责?本文从可行性、完整性和安全性的角度深入探讨这个问题。具体而言,我们提出了“负责任任务自动化”(Responsible Task Automation,ResponsibleTA)作为一个基础框架,以促进基于LLM的协调者与执行者之间负责任的任务自动化合作,具备三种增强能力:1)预测执行者命令的可行性;2)验证执行者的完整性;3)增强安全性(例如,保护用户隐私)。我们进一步提出并比较了实现前两种能力的两种范式。一种是通过提示工程利用LLMs本身的通用知识,另一种是采用领域特定的可学习模型。此外,我们引入了本地存储机制来实现第三种能力。我们在UI任务自动化上评估了我们提出的ResponsibleTA,并希望它能引起更多关于在不同场景中确保LLMs更加负责任的关注。研究项目主页位于https://task-automation-research.github.io/responsible_task_automation。
观察到全景、语义和实例分割任务之间密切的关系,我们提出训练通用多数据集多任务分割模型:DaTaSeg。我们为所有任务使用共享表示(具有类别预测的掩码提议)。为了解决任务差异,我们采用不同的合并操作和后处理方式来处理不同的任务。我们还利用弱监督,使我们的分割模型能够从更便宜的边界框注释中受益。为了跨数据集共享知识,我们使用来自与分类器相同的语义嵌入空间的文本嵌入,并在数据集之间共享所有网络参数。我们在ADE语义、COCO全景和Objects365检测数据集上训练DaTaSeg。DaTaSeg在所有数据集上提高了性能,特别是在小规模数据集上,实现了ADE语义上的54.0 mIoU和COCO全景上的53.5 PQ。DaTaSeg还实现了在ADE全景和Objects365实例分割上的弱监督知识转移。实验表明,DaTaSeg随着训练数据集数量的增加而扩展,并通过直接转移实现了开放词汇的分割。此外,我们标注了一个包含1,000张图像的Objects365实例分割数据集,并将其发布为公共基准。
利用大型语言模型(LLMs)来解决数学问题是一个引人入胜的研究尝试,考虑到在许多科学和工程领域中用自然语言表达的数学问题的丰富性。虽然之前有几项研究探讨了使用LLMs解决基础数学问题,但本研究探索了使用GPT-4来解决更复杂和具有挑战性的数学问题的前沿。我们评估了使用GPT-4的各种方式。其中一些是改编自现有工作,另一种是\MathChat,这是本研究新提出的一种对话式问题解决框架。我们在MATH数据集中的困难高中竞赛问题上进行评估,结果显示了所提出的对话式方法的优势。
基于Transformer的语言模型已被广泛应用于处理越来越长的序列,涉及到许多不同的应用场景。对于这些应用,因果自注意力——这是唯一一个与序列长度二次扩展相关的组件——成为一个核心关注点。虽然许多研究提出了稀疏化注意力模式并减少自注意力的计算开销的方案,但这些方案通常受到实现问题的限制,最终会在注意力矩阵上施加一个简单且静态的结构。相反,实现更动态稀疏注意力往往导致运行时明显慢于使用Dao等人(2022年)的Flash实现计算完整注意力。我们扩展了FlashAttention,以适应一大类注意力稀疏模式,特别包括键/查询丢弃和基于哈希的注意力。这导致我们的实现在FlashAttention的基础上不增加计算复杂度开销,并在运行时速度上实现了多倍的加速。即使在相对较低的稀疏度下,我们的方法随着序列长度的增加明显改进了FlashAttention。在不牺牲困惑度的情况下,我们将一个Transformer语言模型的训练速度分别提高了2.0倍和3.3倍,用于8k和16k标记的序列。
我们对大型语言模型进行了现实检验,并检查了检索增强语言模型的潜力。这些语言模型是半参数化的,其中模型整合模型参数和来自外部数据源的知识来进行预测,与普通大型语言模型的参数化性质相对。我们提供了初步的实验结果,表明半参数化架构可以通过视图、查询分析器/规划器和来源地的增强,构建出一个在准确性和效率方面显著更强大的系统,可能适用于问答等其他自然语言处理任务。