每日精选AI研究论文及翻译
给定两幅图像,一幅展示一个人,另一幅展示另一个人穿着的服装,我们的目标是生成一幅可视化图像,展示服装在输入人物身上的效果。一个关键挑战是在调整服装以适应主体之间的显著身体姿势和形状变化的同时,合成保留细节的逼真可视化效果。先前的方法要么侧重于保留服装细节而忽视有效的姿势和形状变化,要么允许试穿所需形状和姿势,但缺乏服装细节。在本文中,我们提出了一种基于扩散的架构,将两个UNet(称为Parallel-UNet)统一起来,这使我们能够在一个网络中保留服装细节并调整服装以适应显著的姿势和身体变化。Parallel-UNet的关键思想包括:1)通过交叉注意力机制隐式调整服装,2)服装调整和人物融合作为一个统一过程而不是两个独立任务的序列。实验结果表明,TryOnDiffusion在定性和定量上均实现了最先进的性能。
人眼的反射特性是一个被低估的关于周围世界样貌的信息源。通过成像移动人的眼睛,我们可以通过眼睛中的反射收集到摄像机直接视线之外的场景的多个视角。在本文中,我们利用包含眼睛反射的肖像图像重建摄像机视线之外的三维场景。这项任务具有挑战性,原因在于:1)准确估计眼睛姿势的困难,2)眼睛虹膜和场景反射外观的交织。我们的方法联合优化角膜姿势、描绘场景的辐射场以及观察者的眼睛虹膜纹理。我们进一步提出了对虹膜纹理图案的简单正则化先验,以提高重建质量。通过在具有不同眼睛颜色的人的合成和真实世界捕获上进行各种实验,我们展示了利用眼睛反射恢复三维场景的可行性。
大型语言模型编码(Code LLMs),如StarCoder,在与代码相关的任务中表现出色。然而,大多数现有模型仅在广泛的原始代码数据上进行预训练,没有进行指导微调。本文介绍了WizardCoder,它通过将Evol-Instruct方法调整到代码领域,为Code LLMs提供了复杂的指导微调能力。通过在四个著名的代码生成基准上进行全面实验,即HumanEval、HumanEval+、MBPP和DS-1000,我们展示了我们模型的卓越能力。它在所有其他开源Code LLMs上取得了显著的优势。此外,我们的模型甚至在HumanEval和HumanEval+上超越了最大的封闭LLMs,Anthropic的Claude和Google的Bard。我们的代码、模型权重和数据可在https://github.com/nlpxucan/WizardLM 上公开获取。
最近关于大型语言模型(LLMs)的研究取得了显著进展,为通用NLP人工智能助手带来了重大提升。一些研究进一步探讨了利用LLMs进行规划和调用模型或API来解决更一般的多模态用户查询。尽管取得了这些进展,由于视觉任务的多样性,复杂的基于视觉的任务仍然具有挑战性。这种多样性体现在两个方面:1)推理路径。对于许多现实应用,仅通过检查查询本身很难准确分解查询。通常需要基于特定视觉内容和每个步骤的结果进行规划。2)灵活的输入和中间结果。输入形式在野外情况下可能是灵活的,涉及不仅是单个图像或视频,还包括视频和图像的混合,例如,用户视图图像和一些参考视频。此外,复杂的推理过程还会生成多样的多模态中间结果,例如视频叙述,分段视频剪辑等。为了解决这种一般情况,我们提出了一个多模态人工智能助手AssistGPT,采用一种交错的代码和语言推理方法,称为Plan,Execute,Inspect和Learn(PEIL),将LLMs与各种工具集成在一起。具体而言,规划者能够使用自然语言规划Executor中下一步应该执行哪个工具,基于当前推理进展。检查器是一个高效的内存管理器,协助规划者向特定工具提供适当的视觉信息。最后,由于整个推理过程复杂且灵活,设计了一个学习器,使模型能够自主探索并发现最佳解决方案。我们在A-OKVQA和NExT-QA基准上进行了实验,取得了最先进的结果。此外,展示了我们的系统处理比基准中更复杂问题的能力。
知识蒸馏(KD)是一种有望降低大型语言模型(LLMs)高计算需求的技术。然而,先前的知识蒸馏方法主要应用于白盒分类模型或训练小模型模仿像ChatGPT这样的黑盒模型API。如何有效地从白盒生成式LLMs中提炼知识仍未得到充分探讨,随着LLMs的繁荣,这变得越来越重要。在这项工作中,我们提出了MiniLLM,从生成式较大的语言模型中提炼出更小的语言模型。我们首先将标准KD方法中的前向Kullback-Leibler散度(KLD)目标替换为逆KLD,这对于在生成式语言模型上进行KD更为合适,以防止学生模型高估教师分布的低概率区域。然后,我们推导出一种有效的优化方法来学习这一目标。在遵循指令的设置中进行的大量实验表明,MiniLLM模型生成的响应更准确,整体质量更高,暴露偏差更低,校准性更好,长文本生成性能更高。我们的方法也适用于具有120M至13B参数的不同模型系列。我们将在https://aka.ms/MiniLLM发布我们的代码和模型检查点。
大型语言模型(LLMs)的前所未有性能要求改进评估。我们认为,与其仅仅探索LLM能力的广度,精心和深思熟虑的设计对于进行全面、公正和适用的评估至关重要。鉴于世界知识对LLMs的重要性,我们构建了一个面向知识的LLM评估基准(KoLA),在其中我们精心设计了三个关键因素:(1)对于能力建模,我们模仿人类认知形成了一个包含19个任务的四级知识相关能力分类法。 (2)对于数据,为了确保公平比较,我们既使用了维基百科这样一个LLMs普遍预训练的语料库,又使用持续收集的新兴语料库,旨在评估处理未见数据和不断演化知识的能力。 (3)对于评估标准,我们采用对比系统,包括全面标准分数,以便更好地跨任务和模型进行数值比较,以及一种独特的自对比度量标准,用于自动评估知识幻觉。我们评估了21个开源和商业LLMs,并得出了一些有趣的发现。KoLA数据集和开放参与排行榜已在https://kola.xlore.cn 上公开发布,并将持续更新,为开发LLMs和知识相关系统提供参考。
基于生成式预训练变换器(GPT)的大型语言模型(LLM)如GPT-4代表了人工智能领域的一场革命,这归功于它们在自然语言处理中的实际应用。然而,它们也带来了许多重大风险,比如存在偏见、私密或有害文本,以及未经授权的包含受版权保护材料。 我们推出了h2oGPT,这是一个基于生成式预训练变换器(GPT)的大型语言模型(LLM)的开源代码库套件,用于创建和使用这些模型。该项目的目标是创建世界上最好的真正开源替代闭源GPT的方案。通过与开源社区的合作,我们开源了几个经过精细调整的h2oGPT模型,参数范围从70亿到400亿,可在完全宽松的Apache 2.0许可下商业使用。我们的发布中包含了使用自然语言进行100%私密文档搜索的功能。 开源语言模型有助于推动人工智能的发展,并使其更加易于获取和可信赖。它们降低了准入门槛,使个人和团体能够根据自身需求定制这些模型。这种开放性增加了创新、透明度和公平性。共享人工智能的好处需要一种开源策略,H2O.ai将继续推动人工智能和大型语言模型的民主化,以公平地分享人工智能的好处。
我们提出了DreamHuman,这是一种仅通过文本描述生成逼真可动的3D人类化身模型的方法。最近的文本转3D方法在生成方面取得了相当大的进展,但在一些重要方面仍存在不足。控制和空间分辨率通常受限,现有方法生成的是固定而非可动的3D人类模型,而对于像人类这样的复杂结构,人体测量的一致性仍然是一个挑战。DreamHuman将大型文本到图像合成模型、神经辐射场和统计人体模型连接在一起,形成了一种新颖的建模和优化框架。这使得能够生成具有高质量纹理和学习的、实例特定的表面变形的动态3D人类化身。我们展示了我们的方法能够从文本生成各种可动、逼真的3D人类模型。我们的3D模型外观多样,服装、肤色和体形各异,并且在视觉保真度上明显优于通用文本到3D方法和先前基于文本的3D化身生成器。更多结果和动画请访问我们的网站:https://dream-human.github.io。
尽管经过指导调整的大型语言模型(LLMs)在各种自然语言处理任务中展现出卓越的能力,但它们在文本以外的其他数据模态上的有效性尚未得到充分研究。在这项工作中,我们提出了Macaw-LLM,这是一种新颖的多模态LLM,能够无缝地整合视觉、音频和文本信息。Macaw-LLM由三个主要组件组成:用于编码多模态数据的模态模块,用于利用预训练的LLMs的认知模块,以及用于协调不同表示的对齐模块。我们的新型对齐模块无缝地将多模态特征与文本特征连接起来,简化了从模态模块到认知模块的适应过程。此外,我们构建了一个大规模的多模态指导数据集,涵盖了69K个图像实例和50K个视频实例的多轮对话。我们已经公开提供了我们的数据、代码和模型,希望能为未来多模态LLM研究铺平道路,拓展LLMs处理多样数据模态和解决复杂现实场景的能力。
大型语言模型(LLMs)已经展示了在通过上下文学习获得多样新能力方面取得的令人兴奋的进展,涵盖了从逻辑推理到编写代码的各种能力。机器人学研究人员也探索了利用LLMs来提升机器人控制的能力。然而,由于低级别机器人动作依赖硬件且在LLM训练语料库中占比较少,目前将LLMs应用于机器人学的努力主要将LLMs视为语义规划器,或依赖人工设计的控制基元与机器人进行接口。另一方面,奖励函数被证明是灵活的表示形式,可以被优化为控制策略以实现多样任务,而它们的语义丰富性使其适合由LLMs指定。在这项工作中,我们引入了一种新范式,利用这一认识,通过利用LLMs定义可以被优化并完成各种机器人任务的奖励参数。通过将奖励作为LLMs生成的中间接口,我们可以有效地弥合高级语言指令或更正与低级机器人动作之间的差距。同时,结合实时优化器MuJoCo MPC,赋予了一种交互式行为创建体验,用户可以立即观察结果并向系统提供反馈。为了系统评估我们提出的方法的性能,我们为模拟四足机器人和灵巧机械手机器人设计了共计17项任务。我们展示了我们提出的方法可可靠地解决90%的设计任务,而使用基于原始技能作为与Code-as-policies接口的基线则实现了50%的任务。我们进一步在一个真实机器人臂上验证了我们的方法,通过我们的交互式系统出现了非抓取推动等复杂操纵技能。
现实世界中物体的种类几乎是无限的,因此使用在固定类别集上训练的模型无法完全捕捉。因此,近年来,开放词汇方法引起了社区的兴趣。本文提出了一种新的零样本开放词汇分割方法。先前的工作主要依赖于使用图像-文本对进行对比训练,利用分组机制来学习既与语言对齐又定位良好的图像特征。然而,这可能会引入歧义,因为具有相似标题的图像在视觉上的外观通常会有所不同。相反,我们利用大规模文本到图像扩散模型的生成特性来对给定文本类别进行支持图像集的采样。这为给定文本提供了外观分布,从而规避了歧义问题。我们进一步提出了一种考虑采样图像的上下文背景以更好地定位对象并直接分割背景的机制。我们展示了我们的方法可以用于将几种现有的预训练自监督特征提取器与自然语言联系起来,并通过映射回支持集中的区域提供可解释的预测。我们的提议无需训练,仅依赖于预训练组件,但在一系列开放词汇分割基准测试中表现出色,Pascal VOC基准测试领先超过10%。
在解决决策任务时,人类通常依赖于两个关键信息源:(1)历史政策数据,提供来自环境的交互重现,以及(2)自然语言形式的分析洞察,揭示宝贵的思考过程或战略考虑。尽管如此,先前的大部分研究侧重于仅使用一个信息源:它们要么仅使用历史重现来直接学习政策或值函数,要么从事语言模型训练,利用纯粹的语言语料库。在本文中,我们认为一个强大的自主代理应该涵盖这两个信息源。因此,我们提出了ChessGPT,这是一个将政策学习和语言建模相结合的GPT模型,通过整合来自这两个信息源的数据在国际象棋游戏中。具体来说,我们构建了一个与国际象棋相关的大规模游戏和语言数据集。利用这个数据集,我们展示了两个模型示例ChessCLIP和ChessGPT,集成了政策学习和语言建模。最后,我们提出了一个完整的评估框架,用于评估语言模型在国际象棋方面的能力。实验结果验证了我们模型和数据集的有效性。我们在https://github.com/waterhorse1/ChessGPT上开源我们的代码、模型和数据集。
我们整理了一个包含4,550个问题和解决方案的全面数据集,这些问题和解决方案来自麻省理工学院数学、电气工程和计算机科学(EECS)专业的所有必修课程的习题集、期中考试和期末考试。我们评估大型语言模型实现麻省理工学院数学和EECS专业任何专业的毕业要求的能力。我们的结果表明,GPT-3.5成功解决了整个麻省理工学院课程的三分之一,而GPT-4在排除基于图像的问题后,在测试集上通过提示工程实现了完美解决率。我们在这个数据集上对一个开源的大型语言模型进行了微调。我们利用GPT-4自动评分模型响应,并提供了按课程、问题和答案类型详细的性能分析。通过将问题嵌入到低维空间中,我们探索了问题、主题和课程之间的关系,并发现哪些问题和课程需要通过少样本学习来解决其他问题和课程。我们的分析为课程先修要求和课程设计提供了宝贵的见解,突出了语言模型在学习和改进数学和EECS教育方面的潜力。
我们介绍了一种名为“预期”的方法,用于构建一个可控的生成模型,针对时间点过程(事件过程),在第二个相关过程(控制过程)的实现异步条件下。我们通过交错事件和控制的序列来实现这一点,使得控制在事件序列中的停止时间之后出现。这项工作受到符号音乐生成控制中出现的问题的启发。我们专注于填充控制任务,其中控制是事件本身的子集,并且在固定控制事件的情况下完成事件序列的条件生成。我们使用大型且多样化的Lakh MIDI音乐数据集训练预期填充模型。这些模型在提示音乐生成方面与自回归模型的性能相匹配,并具有执行填充控制任务(包括伴奏)的额外能力。人类评估者报告称,预期模型生成的伴奏与人类创作的音乐在20秒片段中的音乐性相似。
我们提出了一种方法,可以为输入视频推荐音乐,同时允许用户使用自由形式的自然语言来指导音乐选择。这个问题的一个关键挑战是现有的音乐视频数据集提供了所需的(视频,音乐)训练对,但缺乏音乐的文本描述。本文通过以下三点解决了这一挑战。首先,我们提出了一种文本合成方法,依赖于基于类比的提示过程,从一个大规模语言模型(BLOOM-176B)中生成自然语言音乐描述,给定预训练的音乐标记器输出和少量人类文本描述。其次,我们使用这些合成的音乐描述来训练一个新的三模态模型,该模型融合了文本和视频输入表示以查询音乐样本。在训练过程中,我们引入了一个文本丢失正则化机制,我们证明这对模型性能至关重要。我们的模型设计允许检索到的音乐音频与两个输入模态一致,通过匹配视频中描绘的视觉风格和自然语言查询中描述的音乐流派、情绪或乐器。第三,为了评估我们的方法,我们通过为YT8M-MusicVideo数据集的4k个剪辑子集注释自然语言音乐描述来收集我们问题的测试数据集,并将其公开提供。我们展示了我们的方法可以在视频到音乐检索上匹配或超过先前方法的性能,同时在使用文本指导时显著提高了检索准确性。
我们解决了敏捷机器人技术中的一个基准任务:捕捉高速抛掷的物体。这是一个具有挑战性的任务,涉及跟踪、拦截和抱住一个抛掷物体,仅凭视觉观察物体和机器人的本体感知状态,在几分之一秒内完成。我们介绍了两种基本不同解决方案策略的相对优点:(i)使用加速约束轨迹优化的模型预测控制,和(ii)使用零阶优化的强化学习。我们通过大量硬件实验深入探讨了各种性能权衡,包括样本效率、从模拟到真实的转移、对分布变化的稳健性,以及全身多模态。最后,我们提出了融合“经典”和“基于学习”的技术用于敏捷机器人控制的建议。我们的实验视频可在以下网址找到:https://sites.google.com/view/agile-catching
预训练的多模态视觉语言模型(VLMs)因在下游视觉应用中表现出色,尤其是在少量和零样本设置下,而变得日益受欢迎。然而,为某些下游应用选择表现最佳的VLM并不容易,因为这取决于数据集和任务。与此同时,在新应用上对所有可用的VLM进行详尽评估不仅耗时且计算量大,还需要收集一个带标签的数据集进行评估。随着开源VLM变体数量的增加,需要一种高效的模型选择策略,而无需访问精心筛选的评估数据集。本文提出了一种新颖的任务和基准,用于在没有访问下游任务数据集的情况下有效评估VLMs在下游应用中的零样本性能。具体而言,我们引入了一个新任务LOVM:仅语言视觉模型选择,其中方法应仅基于所需下游应用的文本描述来执行模型选择和性能预测。然后,我们介绍了一个包含对35个预训练VLMs和23个数据集进行地面真实评估的广泛LOVM基准,其中方法应对预训练VLMs进行排名并预测它们的零样本性能。
最近,基于扩散的生成模型在图像生成和编辑方面取得了显著成功。然而,它们在视频编辑方面的应用仍然面临重要限制。本文介绍了一种名为VidEdit的新方法,用于零样本文本驱动视频编辑,确保强大的时间和空间一致性。首先,我们提出将基于图谱的和预训练的文本到图像扩散模型相结合,提供一种无需训练且高效的编辑方法,其设计满足时间平滑性。其次,我们利用现成的全景分割器以及边缘检测器,并调整它们的用途,用于有条件的基于扩散的图谱编辑。这确保了对目标区域进行精细的空间控制,同时严格保留原始视频的结构。定量和定性实验表明,VidEdit在DAVIS数据集上优于最先进的方法,涉及语义保真度、图像保留和时间一致性指标。通过这个框架,处理单个视频仅需大约一分钟,它可以基于唯一的文本提示生成多个兼容的编辑。项目网页链接:https://videdit.github.io
最近在3D场景理解方面取得的进展使得能够跨大量不同场景数据集学习表示变得可扩展。因此,对未见过的场景和物体进行泛化,仅从一张或少数几张输入图像渲染新视角,以及支持编辑的可控场景生成现在成为可能。然而,通常在大量场景上联合训练会牺牲渲染质量,与NeRFs等针对单个场景优化的模型相比。在本文中,我们利用扩散模型的最新进展,赋予3D场景表示学习模型渲染高保真新视角的能力,同时保留诸如对象级场景编辑等好处。具体来说,我们提出了DORSal,它将视频扩散架构应用于基于对象中心槽位表示的场景的3D场景生成。在复杂的合成多对象场景和实际的大规模街景数据集上,我们展示了DORSal实现了可扩展的神经渲染3D场景,具有对象级编辑,并改进了现有方法。
我们展示了如何构建一个模型,允许在视频中从新的光照条件下实现一个场景的逼真、自由视角渲染。我们的方法——UrbanIR:城市场景逆渲染——从视频中计算出一个逆图形表示。UrbanIR同时推断形状、反照率、可见性,以及太阳和天空照明,从一段未知光照的无边界室外场景的单个视频中。UrbanIR使用安装在汽车上的摄像头的视频(与典型的NeRF风格估计中同一点的多个视图相比)。因此,标准方法产生了较差的几何估计(例如,屋顶),并且存在许多“漂浮物”。逆图形推断中的错误可能导致强烈的渲染伪影。UrbanIR使用新颖的损失函数来控制这些和其他错误来源。UrbanIR使用一种新颖的损失函数,非常好地估计了原始场景中的阴影体积。由此产生的表示有助于可控编辑,提供了重照场景和插入对象的逼真自由视角渲染。定性评估表明,相较于最先进技术,UrbanIR取得了显著的改进。
本文提出了一种自主信息检索视觉问答框架,称为AVIS。我们的方法利用大型语言模型(LLM)动态规划外部工具的利用,并调查它们的输出,从而获取提供问题答案所需的必要知识。回答需要外部知识的视觉问题,例如“这幅图中描绘的建筑纪念的是哪个事件?”,是一项复杂任务。这项任务呈现出一个需要一系列行动的组合搜索空间,包括调用API、分析其响应以及做出明智决策。我们进行了用户研究,收集了人类在面对这一任务时的各种决策实例。然后,利用这些数据设计了一个由三个组件组成的系统:一个由LLM驱动的规划器,动态确定下一步要使用的工具;一个由LLM驱动的推理器,分析并从工具输出中提取关键信息;以及一个工作记忆组件,在整个过程中保留获取的信息。收集的用户行为作为我们系统的指南,有两个关键作用。首先,我们通过分析用户所做决策的顺序创建了一个转换图。该图勾勒出不同的状态,并限制了每个状态下可用的行动集。其次,我们利用用户决策的示例为我们的LLM驱动的规划器和推理器提供相关的背景实例,增强它们做出明智决策的能力。我们展示了AVIS在知识密集型视觉问答基准测试中取得了最先进的结果,如Infoseek和OK-VQA。
最近神经重建技术的进展实现了从随意拍摄的图像集合中进行高质量的三维物体重建。当前的技术主要在相对简单的图像集合上分析其进展,这些集合中结构从运动(SfM)技术可以提供地面真实(GT)相机姿势。我们注意到,SfM技术在野外图像集合上往往会失败,比如具有不同背景和光照的图像搜索结果。为了促进从随意拍摄的图像中进行三维重建的系统研究进展,我们提出了NAVI:一个新的类别不可知的物体图像集合数据集,其中包含高质量的三维扫描,以及每个图像的二维至三维对齐,提供接近完美的GT相机参数。这些二维至三维对齐使我们能够提取准确的导数注释,如密集像素对应、深度和分割图。我们展示了在不同问题设置上使用NAVI图像集合,并表明NAVI使得进行更全面的评估成为可能,而这在现有数据集上是不可能的。我们相信NAVI对于三维重建和对应估计的系统研究进展是有益的。项目页面:https://navidataset.github.io
在这项工作中,我们研究了大规模语言模型(LLM)对YouTube视频的自动语音识别(ASR)的影响,我们将其用作长篇ASR的数据源。我们在美式英语(en-us)和印度英语(en-in)混合语境的长篇ASR测试集上展示了高达8\%的相对词错误率(WER)降低,以及在显著术语错误率(STER)上高达30\%的相对降低,相较于使用基于最大熵的语言模型的强大一次通过基线。改进的格处理导致了一个具有适当(非树形)双图拓扑结构并携带前一段的1最佳假设的上下文的格,这在LLM的重新评分中取得了显著的胜利。我们还发现,LLM与在大量可用数据(如C4)上训练的传统神经语言模型的组合带来的性能提升是累加的,并且明显优于使用最大熵LM的强大一次通过基线。
在不同光照条件下重建和重新照明物体和场景具有挑战性:现有的神经渲染方法通常无法处理材料和光线之间复杂的相互作用。将预先计算的辐射传输技术纳入其中可以实现全局光照,但仍然难以处理具有次表面散射效应的材料。我们提出了一个新颖的框架,通过体积渲染学习辐射传输场,并利用各种外观线索来端到端地优化几何。该框架扩展了照明和重建能力,以以数据驱动的方式处理更广泛范围的材料。由此产生的模型在现有和新颖条件下产生合理的渲染结果。我们将公开发布我们的代码和一个包含具有次表面散射效应的物体的新颖光照舞台数据集。
考虑一个机器人的任务是整理一个摆放着精心构建的乐高运动汽车的书桌。人类可能会意识到将运动汽车拆开并放好并不符合社交礼仪。机器人如何能够得出这样的结论呢?尽管最近大型语言模型(LLMs)已被用于实现社交推理,但在现实世界中进行这种推理仍然具有挑战性。为了在现实世界中进行推理,机器人必须超越被动地向LLMs查询,而是*积极地从环境中收集信息*,以便做出正确的决定。例如,在检测到有一辆被遮挡的汽车后,机器人可能需要积极地感知这辆汽车,以了解它是由乐高制成的高级型号汽车,还是由幼儿制作的玩具车。我们提出了一种方法,利用LLM和视觉语言模型(VLM)帮助机器人积极感知其环境,从而进行基于实际的社交推理。为了在规模上评估我们的框架,我们发布了MessySurfaces数据集,其中包含70个需要清理的现实世界表面的图像。我们还通过一个机器人在两个精心设计的表面上展示了我们的方法。我们发现在MessySurfaces基准测试中平均提高了12.9%,在不使用主动感知的基线上,机器人实验平均提高了15%。我们的数据集、代码和方法的视频可以在https://minaek.github.io/groundedsocialreasoning 找到。
深度学习模型的超参数调整可以使性能提升一个数量级,而计算量保持不变。尽管如此,系统化调整并不常见,特别是对于昂贵且具有许多超参数的大型模型,这需要对权衡、预算和搜索范围做出困难的判断。为了解决这些问题并提出一种稳健调整大型模型的实用方法,我们提出了成本感知帕累托区贝叶斯搜索(CARBS),这是一种贝叶斯优化算法,可在性能-成本帕累托边界周围执行局部搜索。CARBS即使在具有许多超参数的无界搜索空间中也能表现出色,学习缩放关系,使其能够调整模型,即使在模型被扩展的情况下,也能自动化许多调整中的“黑魔法”。在我们的结果中,我们通过调整简单的基线(如原始ProcGen论文中提供的PPO)有效地解决了整个ProcGen基准测试。我们还复现了Chinchilla项目(Hoffmann等,2022)中的模型大小与训练标记的比例结果,同时通过一种简单的自动化过程发现了其他每个超参数的比例定律,这个过程使用的计算量明显较少,并且适用于任何深度学习问题(不仅限于语言模型)。