每日精选AI研究论文及翻译
目前存在大量大型语言模型(LLMs),用户可以付费查询。我们审查了查询流行的LLM API(例如GPT-4、ChatGPT、J1-Jumbo)所需的成本,并发现这些模型具有异构的定价结构,费用相差两个数量级。特别是在大量查询和文本集合上使用LLMs可能会很昂贵。受此启发,我们概述并讨论了用户可以利用的三种策略来降低使用LLMs的推理成本:1)提示适应、2)LLM近似、3)LLM级联。作为示例,我们提出了FrugalGPT,这是LLM级联的一个简单而灵活的实例,它学习了在不同查询中使用哪些LLM组合以降低成本并提高准确性。我们的实验表明,FrugalGPT可以在减少高达98%的成本或在相同成本下提高4%的准确性的情况下,与最佳个体LLM(例如GPT-4)的性能相匹配。本文提出的想法和发现为可持续高效地使用LLMs奠定了基础。
尽管“指导调整”的生成式大型语言模型(LLMs)展示了出色的泛化到新任务的能力,但训练阶段严重依赖大量多样且高质量的指导数据(如ChatGPT和GPT-4)。不幸的是,获取高质量数据,尤其是人工编写的数据,可能会在成本和获取方面带来重大挑战。此外,与隐私相关的担忧可能进一步限制对这些数据的访问,使得获取数据的过程变得复杂且微妙。因此,这阻碍了调整模型的泛化能力,可能会限制其在某些情境中的有效性。为了解决这一问题,我们的研究引入了一种名为联邦指导调整(FedIT)的新方法,该方法利用联邦学习(FL)作为LLMs指导调整的学习框架。这标志着首次探索了基于FL的LLMs指导调整。这一点尤为重要,因为文本数据主要由最终用户生成。因此,必须设计和调整FL方法,以有效利用这些用户在本地设备上存储的多样指导,同时保护隐私并确保数据安全。在本文中,通过进行广泛使用的GPT-4自我评估,我们展示了通过利用客户端端的异构和多样指导集合,结合提出的FedIT框架,相较于仅有有限本地指导的集中式训练,我们提高了LLMs的性能。此外,在本文中,我们开发了一个名为Shepherd的Github存储库。该存储库提供了一个探索使用跨不同类别的异构指导进行LLMs联邦微调的基础框架。
我们提出了一个名为InternChat(简称iChat)的交互式视觉框架。该框架集成了具有规划和推理能力的聊天机器人,如ChatGPT,以及非语言指令,如指向性动作,使用户能够直接操作屏幕上的图像或视频。指向性(包括手势、光标等)动作可以在执行需要精细控制、编辑和生成视觉内容的以视觉为中心的任务中提供更多灵活性和精度。InternChat这个名字代表着互动、非语言和聊天机器人。与现有依赖纯语言的交互系统不同,通过整合指向性指令,所提出的iChat显著提高了用户与聊天机器人之间的沟通效率,以及聊天机器人在以视觉为中心的任务中的准确性,特别是在物体数量大于2的复杂视觉场景中。此外,在iChat中,使用了辅助控制机制来提高LLM的控制能力,并对一种名为Husky的大型视觉-语言模型进行微调,用于高质量的多模态对话(令ChatGPT-3.5-turbo印象深刻,达到93.89%的GPT-4质量)。我们希望这项工作能激发未来交互式视觉系统的新思路和方向。欢迎查看代码:https://github.com/OpenGVLab/InternChat。
最近已经证明大型语言模型(LLMs)在各种自然语言处理任务中表现出色。为了解决多步推理任务,少样本链式思维(CoT)提示包括一些手工制作的逐步推理演示,使LLMs能够明确生成推理步骤并提高其推理任务准确性。为了消除手动工作,零样本-CoT将目标问题陈述与“让我们逐步思考”连接作为LLMs的输入提示。尽管零样本-CoT取得了成功,但仍存在三个缺陷:计算错误、缺失步骤错误和语义误解错误。为了解决缺失步骤错误,我们提出了计划与解决(PS)提示。它包括两个组成部分:首先,制定一个计划将整个任务分解为较小的子任务,然后根据计划执行子任务。为了解决计算错误并提高生成推理步骤的质量,我们通过更详细的说明扩展了PS提示,并得到了PS+提示。我们在三个推理问题的十个数据集上评估了我们提出的提示策略。在GPT-3上的实验结果表明,我们提出的零样本提示始终在所有数据集上大幅优于零样本-CoT,与零样本思维程序提示相当或超过,并在数学推理问题上与8样本CoT提示性能相当。代码可在https://github.com/AGI-Edgerunners/Plan-and-Solve-Prompting找到。
扩散模型已经成为流行的文本到图像生成模型,可以根据文本提示生成高质量且内容丰富的图像。然而,在现有模型中存在语义理解和常识推理方面的局限性,当输入提示为简洁叙述时,会导致图像生成质量低下。为了改进叙事提示的能力,我们提出了一种简单但有效的参数高效微调方法,称为语义理解和推理适配器(SUR-adapter),用于预训练的扩散模型。为了实现这一目标,我们首先收集并注释了一个新数据集SURD,其中包含超过57,000个语义校正的多模态样本。每个样本包含一个简单的叙事提示、一个复杂的基于关键词的提示和一个高质量图像。然后,我们将叙事提示的语义表示与复杂提示进行对齐,并通过知识蒸馏将大型语言模型(LLMs)的知识转移给我们的SUR-adapter,以便它可以获得强大的语义理解和推理能力,为文本到图像生成构建高质量的文本语义表示。我们通过集成多个LLMs和流行的预训练扩散模型进行实验,展示了我们的方法在使扩散模型能够理解和推理简洁自然语言而不降低图像质量方面的有效性。我们的方法可以使文本到图像扩散模型更易于使用,用户体验更佳,从而展示了我们的方法通过弥合简单叙事提示和复杂基于关键词提示之间的语义差距,有进一步推动用户友好的文本到图像生成模型发展的潜力。
提示调整是参数高效调整预训练语言模型的成功方法之一。尽管可能是最参数高效的方法之一(调整的软提示占总参数的<0.1%),但通常表现不如其他高效调整方法,并且对超参数非常敏感。在这项工作中,我们引入了残差提示调整 - 一种简单高效的方法,显著提高了提示调整的性能和稳定性。我们建议使用带有残差连接的浅层网络重新参数化软提示嵌入。我们的实验表明,残差提示调整在SuperGLUE基准测试中明显优于提示调整。值得注意的是,我们的方法在T5-Base上比提示调整提高了+7个点,并且可以将提示长度缩短10倍而不影响性能。此外,我们展示了我们的方法对学习率和提示初始化的选择具有鲁棒性,并且在少样本设置中非常有效。
我们提出了一种名为MultiModal-GPT的视觉与语言模型,用于与人类进行多轮对话。MultiModal-GPT能够遵循人类的各种指令,例如生成详细说明、计算感兴趣对象的数量,以及回答用户的一般问题。MultiModal-GPT是通过对OpenFlamingo进行参数高效微调而得到的,其中在语言模型的交叉注意力部分和自注意力部分均添加了低秩适配器(LoRA)。我们首先利用视觉和语言数据构建指令模板,用于进行多模态指令调整,以使模型理解并遵循人类指令。我们发现训练数据的质量对对话表现至关重要,少量包含简短答案的数据可能导致模型对任何指令作出简短回应。为了进一步增强MultiModal-GPT与人类聊天的能力,我们利用仅包含语言的指令遵循数据对MultiModal-GPT进行联合训练。将仅包含语言和视觉-语言指令的联合训练应用于相同的指令模板,有效提高了对话表现。各种演示展示了MultiModal-GPT与人类进行连续对话的能力。代码和演示位于https://github.com/open-mmlab/Multimodal-GPT。
我们提出了AvatarReX,这是一种从视频数据中学习基于NeRF的全身化身的新方法。学习到的化身不仅可以提供对身体、手部和面部的表现控制,还支持实时动画和渲染。为此,我们提出了一种组合式化身表示,其中身体、手部和面部分别建模,以便充分利用参数化网格模板的结构先验,同时不影响表示的灵活性。此外,我们对每个部分的几何和外观进行了解耦。通过这些技术设计,我们提出了一个专用的延迟渲染流水线,可以以实时帧率执行,合成高质量的自由视图图像。几何和外观的解耦还使我们能够设计一个两阶段训练策略,结合体积渲染和表面渲染进行网络训练。通过这种方式,可以应用基于补丁级别的监督,迫使网络学习基于几何估计的清晰外观细节。总体而言,我们的方法实现了具有实时渲染能力的表现丰富的全身化身的自动构建,并能够为新颖的身体动作和面部表情生成具有动态细节的逼真图像。
大型语言模型(LLMs)可以通过在给出最终输出之前进行逐步推理来在许多任务上取得强大的性能,这通常被称为思维链推理(CoT)。诱人的是将这些CoT解释解释为LLM解决任务的过程。然而,我们发现CoT解释可以系统性地误传模型预测的真实原因。我们证明,通过向模型输入添加偏见特征(例如,在少样本提示中重新排列多项选择选项,使答案始终为“(A)”),CoT解释可以受到严重影响,而模型在解释中通常未提及这些偏见。当我们偏向于错误答案时,模型经常生成支持这些答案的CoT解释。这导致在使用来自OpenAI的GPT-3.5和Anthropic的Claude 1.0进行测试时,13个BIG-Bench Hard任务套件中的准确率下降多达36%。在社会偏见任务中,模型解释证明支持符合刻板印象的答案,而未提及这些社会偏见的影响。我们的研究结果表明,CoT解释可能是合理但具有误导性的,这会增加我们对LLMs的信任,但并不能保证其安全性。CoT对于可解释性是有前景的,但我们的结果突显了评估和改进解释忠实度的有针对性努力的必要性。
现有的神经辐射场(NeRF)方法存在反射物体,通常导致模糊或失真的渲染。我们提出了一种多空间神经辐射场(MS-NeRF),它不是计算单个辐射场,而是使用一组特征场在并行子空间中表示场景,这有助于神经网络更好地理解反射和折射物体的存在。我们的多空间方案作为对现有NeRF方法的增强,仅需要少量的计算开销来训练和推断额外空间的输出。我们使用三种代表性基于NeRF的模型,即NeRF、Mip-NeRF和Mip-NeRF 360,展示了我们方法的优越性和兼容性。我们在一个新构建的数据集上进行比较,该数据集包含25个合成场景和7个具有复杂反射和折射的实际捕获场景,所有这些场景都具有360度的视角。大量实验表明,我们的方法在处理通过镜面物体的复杂光线路径渲染高质量场景方面明显优于现有的单空间NeRF方法。我们的代码和数据集将公开发布在https://zx-yin.github.io/msnerf。
Transformer模型是自然语言处理(NLP)和计算机视觉的基础。尽管近年来有许多研究致力于降低这类模型的二次成本(作为序列长度n的函数),但有效处理超长序列(例如超过16K个标记)仍然具有挑战性。诸如基于整本书回答问题或总结科学文章等应用是低效或不可行的。在本文中,我们提出通过将输入压缩成一个在每一层中与n无关的表示(大小为r),显著减少Transformer模型复杂度对n的依赖性。具体地,通过利用许多任务中仅一小部分特殊标记(我们称之为VIP标记)对最终预测最相关的事实,我们提出了一种VIP标记为中心的压缩(Vcc)方案,该方案根据它们对近似这些VIP标记表示的影响有选择性地压缩输入序列。与竞争基线相比,所提出的算法不仅高效(在4K和16K长度上相比基线实现了3倍以上的效率改进),而且在大量任务上实现了具有竞争力或更好的性能。此外,我们展示了我们的算法可以扩展到128K个标记(或更多),同时持续提供准确性改进。
ELECTRA,生成器-鉴别器预训练框架,在各种下游任务中取得了令人印象深刻的语义构建能力。尽管表现令人信服,ELECTRA仍然面临单调训练和互动不足的挑战。仅具有掩码语言建模(MLM)的生成器导致了偏见学习和鉴别器标签不平衡,降低了学习效率;鉴别器到生成器没有明确的反馈循环,导致这两个组件之间存在鸿沟,未充分利用课程学习。在本研究中,提出了一种多角度课程学习(MCL)方法,用于高效获取多个角度和视角,充分利用生成器和鉴别器之间的关系。具体来说,设计了三个自我监督课程,以多角度方式缓解MLM的固有缺陷并平衡标签。此外,提出了两个自我校正课程,通过为次级监督创建“校正笔记本”来弥合两个编码器之间的鸿沟。此外,进行了一次课程汤试验,以解决MCL的“拉锯战”动态问题,进化出更强大的预训练模型。实验结果表明,我们的方法在GLUE和SQuAD 2.0基准上分别将ELECTRA的平均性能提高了2.8%和3.2%绝对点,并在相同设置下超越了最近先进的ELECTRA风格模型。预训练的MCL模型可在https://huggingface.co/McmanusChen/MCL-base找到。