每日精选AI研究论文及翻译
对比损失是一种强大的表示学习方法,通过提供更多负样本来增强性能,从而更好地区分相似和不相似的数据,扩大批量大小。然而,批量大小的扩展受到 GPU 内存消耗的二次增长的限制,主要是由于完全实例化相似度矩阵。为了解决这个问题,我们提出了一种基于瓦片的计算策略,将对比损失计算分成任意小的块,避免完全实例化相似度矩阵。此外,我们引入了多级切片策略,利用分布式系统的分层结构,利用 GPU 层面的基于环的通信来优化同步,并在 CUDA 核心层面使用融合内核来减少 I/O 开销。实验结果表明,所提出的方法使批量大小扩展到前所未有的水平。例如,它使得可以使用 8 或 32 个 A800 80GB 进行对比训练 CLIP-ViT-L/14 模型,批量大小为 4M 或 12M,而不损失任何准确性。与 SOTA 的内存高效解决方案相比,它实现了内存减少两个数量级,同时保持可比较的速度。代码将公开发布。
大型语言模型(LLMs)存在幻觉问题,指生成内容中的非事实信息,尽管它们在各项任务上具有出色的能力。同时,知识编辑已经发展成为一种新的流行范式,用于纠正LLMs中编码的错误事实知识,其优势在于避免从头开始重新训练。然而,现有知识编辑评估数据集的一个普遍问题是,它们并未确保LLMs在编辑之前实际生成幻觉答案以回答评估问题。当LLMs在经过不同技术编辑后在这类数据集上进行评估时,很难直接采用性能来评估不同知识编辑方法在纠正幻觉方面的有效性。因此,一个基本问题仍然缺乏验证:知识编辑是否真的能够纠正LLMs中的幻觉?我们提出了HalluEditBench,全面评估知识编辑方法在纠正现实世界幻觉方面的表现。首先,我们严谨构建了一个包含9个领域、26个主题和6000多个幻觉的大规模幻觉数据集。然后,我们从效能、泛化性、可移植性、局部性和鲁棒性等五个维度全面评估知识编辑方法的表现。通过HalluEditBench,我们为不同知识编辑方法在纠正幻觉方面的潜力和局限性提供了新的见解,这可能激发未来的改进并促进知识编辑领域的进展。
长文本模型(LCMs)已展现出在方便且有效地处理长输入序列(甚至超过1亿个标记)方面具有巨大潜力。随着重要进展,最近的研究指出LCMs能够准确地定位上下文中的标记级显著信息。然而,这些LCMs的生成性能远未令人满意,可能导致诸如幻觉之类的错位响应。为增强LCMs的生成能力,现有研究已调查了数据大小和质量对预训练和指导微调的影响。尽管取得了有意义的改进,先前的方法在效果或效率方面存在不足。在本文中,我们介绍了LOGO(Long cOntext aliGnment via efficient preference Optimization),这是一种培训策略,首先引入了用于长上下文对齐的偏好优化。为克服由长序列引起的GPU内存受限问题,LOGO采用了一种无参考偏好优化策略,并采用了位置合成方法来构建训练数据。通过在单个8timesA800 GPU机器上进行16小时的训练,仅使用0.3B数据,LOGO使Llama-3-8B-Instruct-80K模型能够在真实世界的长上下文任务中实现与GPT-4可比的性能,同时保留模型在其他任务(例如语言建模和MMLU)中的原始能力。此外,LOGO可以扩展模型的上下文窗口大小,同时增强其生成性能。
高质量数据的可用性是提升LLM推理能力的最重要因素之一。现有研究已经证明了从种子问题或知识库中创建更多指导数据的有效性。最近的研究表明,持续扩大来自强模型(例如GPT-4)的数据合成可以进一步激发推理性能。尽管有所希望,但开源社区仍然缺乏规模化的高质量数据和可负担成本的可扩展数据合成方法。为了解决这个问题,我们引入了ScaleQuest,这是一种可扩展且新颖的数据合成方法,利用“小型”(例如7B)开源模型从头开始生成问题,而无需复杂的增强约束种子数据。通过高效的ScaleQuest,我们自动构建了一个包含100万个问题-解决方案对的数学推理数据集,比现有的开源数据集更有效。它可以普遍提高主流开源模型(例如Mistral、Llama3、DeepSeekMath和Qwen2-Math)的性能,MATH上的增益达到29.2%至46.4%。值得注意的是,仅通过使用我们的数据集微调Qwen2-Math-7B-Base模型,甚至可以超越Qwen2-Math-7B-Instruct,这是一个在闭源数据上表现强大且良好对齐的模型,以及GPT-4-Turbo和Claude-3.5 Sonnet等专有模型。
我们提出了Framer,用于交互式帧插值,旨在根据用户的创意产生在两幅图像之间平滑过渡的帧。具体而言,除了接受起始帧和结束帧作为输入外,我们的方法还支持通过调整一些选定关键点的轨迹来定制过渡过程。这种设计有两个明显的好处。首先,融入人类交互可以缓解由于将一幅图像转换为另一幅图像的众多可能性而产生的问题,从而实现对局部运动的更精细控制。其次,作为最基本的交互形式,关键点有助于建立跨帧的对应关系,增强模型处理具有挑战性的情况的能力(例如,起始帧和结束帧上的对象具有不同的形状和风格)。值得注意的是,我们的系统还提供了“自动驾驶”模式,其中我们引入一个模块来自动估计关键点并优化轨迹,以简化实际使用。大量实验结果展示了Framer在各种应用中的出色性能,例如图像变形、延时视频生成、卡通插值等。代码、模型和界面将会发布以促进进一步研究。
我们引入了生成式无限游戏的概念,这是一种视频游戏,通过使用生成模型超越了传统有限、硬编码系统的界限。受詹姆斯·P·卡斯对有限和无限游戏的区分启发,我们利用生成式人工智能的最新进展创造了《无边》:一款完全封装在生成模型中的角色生活模拟游戏。具体而言,《无边》汲取了沙盒生活模拟的灵感,允许您通过LLM生成的开放式机制与您的自主虚拟角色在虚拟世界中互动,包括喂养、玩耍和引导,其中一些机制可能是新兴的。为了开发《无边》,我们在LLM和视觉生成领域提出了技术创新。具体而言,我们提出:(1)一种专门的、精炼的大型语言模型(LLM),动态生成游戏机制、叙事和角色互动,并且(2)一种新的动态区域图像提示适配器(IP-Adapter)用于视觉模型,确保在多个环境中对角色进行一致而灵活的视觉生成。我们通过定性和定量分析评估了我们的系统,展示了与传统相关方法相比,在角色生活模拟、用户指导、叙事连贯性以及角色和环境的视觉一致性方面的显著改进。
解决复杂图表问答任务需要多模大型语言模型(MLLMs)具备先进的视觉推理能力。最近的研究强调这些能力由两个主要部分组成:从视觉输入中识别关键信息和对其进行推理。因此,增强MLLMs的一个有前途的方法是构建侧重于这两个方面的相关训练数据。然而,收集和标注复杂图表和问题是昂贵且耗时的,确保注释答案的质量仍然是一个挑战。在本文中,我们提出了作为中介的代码翻译(CIT),这是一种经济高效且易于扩展的数据合成方法,用于从LLMs中提炼视觉推理能力到MLLMs。代码充当一个中介,将视觉图表表示转换为文本表示,使LLMs能够理解跨模态信息。具体来说,我们采用基于文本的合成技术来构建绘图代码,并生成了ReachQA,一个包含3k推理密集型图表和20k问答对的数据集,以增强识别和推理能力。实验证明,当使用我们的数据进行微调时,模型不仅在与图表相关的基准测试上表现良好,而且在像MathVista这样的一般数学基准测试上展现出改进的多模态推理能力。代码和数据集可在https://github.com/hewei2001/ReachQA 公开获取。
在本报告中,我们介绍了一系列增强LLMs奖励建模的方法,重点关注数据中心的技术。我们提出了有效的数据选择和过滤策略,用于筛选高质量的开源偏好数据集,最终形成了Skywork-Reward数据集,其中仅包含80K个偏好对,明显小于现有数据集。利用这一筛选后的数据集,我们开发了Skywork-Reward模型系列——Skywork-Reward-Gemma-27B和Skywork-Reward-Llama-3.1-8B,前者目前在RewardBench排行榜上名列前茅。值得注意的是,我们的技术和数据集直接提升了许多在RewardBench上排名靠前的模型的性能,突显了我们在实际偏好学习应用中贡献的实际影响。
大型语言模型(LLMs)可以在其参数中存储大量的事实知识。然而,它们的参数化知识可能与上下文中提供的信息相冲突 -- 这种现象被称为上下文记忆知识冲突,可能导致模型行为不良,例如依赖过时或不正确的信息。通过分析LLMs的内部激活,我们发现它们可以在中间层内部注册知识冲突的信号。这些信号使我们能够检测知识冲突是否发生,并使用推理时间干预策略来解决它。在这项工作中,我们提出了SpARE,这是一种无需训练的表示工程方法,它使用预训练的稀疏自动编码器(SAEs)来控制LLMs的知识选择行为。SpARE识别控制知识选择行为的功能特征,并将它们应用于编辑LLMs在推理时间的内部激活。我们的实验结果表明,SpARE可以有效地控制在开放领域问答任务中解决知识冲突的任一知识源的使用,超过现有的表示工程方法(+10%)以及对比解码方法(+15%)。
分布式训练和高效的注意力机制的进展显著扩展了大型语言模型(LLMs)的上下文窗口大小。然而,最近的研究表明,开源LLMs的有效上下文长度通常不足,通常不超过其训练长度的一半。在这项工作中,我们将这一限制归因于LLMs预训练和后训练阶段形成的相对位置的左偏频率分布,这阻碍了它们有效收集远距离信息的能力。为了解决这一挑战,我们引入了ShifTed Rotray位置嵌入(STRING)。STRING在推断过程中将训练良好的位置移位以覆盖原始无效位置,提升了它们在现有训练长度内的性能。实验结果显示,STRING在没有额外训练的情况下,显著提高了最新大规模模型(如Llama3.1 70B和Qwen2 72B)在流行的长上下文基准RULER和InfiniteBench上的表现超过10个点,为开源LLMs确立了新的最先进结果。与商业模型相比,即使在没有额外训练的情况下,Llama 3.1 70B与STRING的性能甚至优于GPT-4-128K,并明显优于Claude 2和Kimi-chat。
在自然语言处理(NLP)中,高效的长文本语言建模仍然是一个重要挑战。尽管Transformer在语言任务中占据主导地位,但由于训练中的二次计算复杂度和推理期间线性扩展的内存成本,它们在处理长序列时存在困难。最近的状态空间模型(SSMs)如Mamba提供了具有恒定内存使用的替代方案,但它们在需要大量上下文检索的任务中表现不佳。我们引入了Taipan,这是一种新颖的混合架构,将Mamba-2与选择性注意力层(SALs)相结合。这些SALs识别需要长距离交互的标记,去除不太重要的特征,然后使用注意力模块增强它们的表示。这种方法在内存密集型任务中平衡了Mamba的效率和类似Transformer的性能。通过限制注意力预算,Taipan将准确预测扩展到长达100万标记的上下文长度,同时保持计算效率。我们的实验表明,Taipan在各种规模和任务中表现出优越性能,为高效的长文本语言建模提供了一个有前途的解决方案。
在视频中对物体进行分割面临着重大挑战。每个像素必须被准确标记,并且这些标签必须在帧间保持一致。当分割具有任意粒度时,困难会增加,这意味着分段数量可以任意变化,并且基于仅一个或少数几个样本图像定义掩模。在本文中,我们通过采用预训练的文本到图像扩散模型并辅以额外的跟踪机制来解决这个问题。我们展示了我们的方法可以有效地处理各种分割场景,并优于最先进的替代方案。
本研究探讨了人体动作生成的交互式编辑问题。先前的动作扩散模型缺乏明确建模单词级文本-动作对应关系和良好的可解释性,从而限制了其细粒度编辑能力。为解决这一问题,我们提出了一种基于注意力的动作扩散模型,即MotionCLR,具有清晰建模注意力机制。在技术上,MotionCLR 使用自注意力和交叉注意力分别对模态内和模态间的交互进行建模。具体而言,自注意力机制旨在衡量帧之间的顺序相似性并影响动作特征的顺序。相比之下,交叉注意力机制旨在找到细粒度的单词序列对应关系,并激活动作序列中相应的时间步。基于这些关键特性,我们通过操纵注意力图开发了一套简单而有效的多功能动作编辑方法,如动作(去)强调、原地动作替换和基于示例的动作生成等。为进一步验证注意力机制的可解释性,我们还通过注意力图探索了动作计数和基于实例的动作生成能力的潜力。我们的实验结果表明,我们的方法具有良好的生成和编辑能力,并具有良好的可解释性。
Web开发涉及将UI设计转化为功能性网页,这对于初学者和经验丰富的开发人员来说都可能很困难,因为HTML的层级结构和样式复杂。虽然大型语言模型(LLMs)在生成源代码方面表现出潜力,但在UI到HTML代码生成中仍存在两个主要挑战:(1)有效地为LLMs表示HTML的层级结构,以及(2)弥合UI设计的视觉特性与HTML代码的文本格式之间的差距。为了解决这些挑战,我们引入了一种名为Waffle的新微调策略,该策略利用结构感知注意机制来提高LLMs对HTML结构的理解,并采用对比微调方法来使LLMs对UI图像和HTML代码的理解保持一致。通过Waffle进行微调的模型在我们的新基准测试WebSight-Test和现有基准测试Design2Code上展现出高达9.00个百分点更高的HTML匹配度,0.0982更高的CW-SSIM,32.99更高的CLIP,以及27.12个百分点更高的LLEM,优于当前的微调方法。
近年来,人们对开发能够执行各种视觉推理和理解任务的大型多模态模型(LMMs)表现出了显著兴趣。这导致了引入多个LMM基准来评估LMM在不同任务上的表现。然而,大多数现有的LMM评估基准主要以英语为中心。在这项工作中,我们为阿拉伯语开发了一个全面的LMM评估基准,以代表超过4亿使用者的大型人口。所提出的基准命名为CAMEL-Bench,包括八个不同领域和38个子领域,包括多图像理解、复杂视觉感知、手写文档理解、视频理解、医学成像、植物疾病和基于遥感的土地利用理解,以评估广泛的场景泛化能力。我们的CAMEL-Bench包括大约29,036个问题,这些问题是从更大的样本池中筛选出来的,质量由母语使用者手动验证,以确保可靠的模型评估。我们对闭源模型(包括GPT-4系列)和开源LMMs进行评估。我们的分析显示,尤其是在最佳开源模型中,需要实质性改进,即使是闭源的GPT-4o也只能获得62%的总体得分。我们的基准和评估脚本是开源的。
大型语言模型(LLMs)经常会产生幻觉,通过错误表达提供的上下文或错误回忆内部知识而产生不忠实或事实不准确的输出。最近的研究已经确定了Transformer架构中的特定注意力头,称为检索头,负责提取相关的上下文信息。我们假设屏蔽这些检索头可能会诱发幻觉,并且对比基础LLM和屏蔽LLM的输出可以减少幻觉。为此,我们提出了一种名为对比检索头解码(DeCoRe)的新型无需训练的解码策略,该策略可以放大上下文和模型参数中找到的信息。DeCoRe通过动态对比基础LLM和屏蔽LLM的输出,使用条件熵作为指导,从而减轻潜在的幻觉响应。我们的广泛实验证实,DeCoRe显著提高了在需要高上下文忠实度的任务上的性能,例如摘要(XSum提高了18.6%)、遵循说明(MemoTrap提高了10.9%)以及开放式问答(NQ-Open提高了2.4%,NQ-Swap提高了5.5%)。
我们介绍了CCI3.0-HQ(https://huggingface.co/datasets/BAAI/CCI3-HQ),这是中国语料库互联网3.0(CCI3.0)的高质量500GB子集(https://huggingface.co/datasets/BAAI/CCI3-Data),采用了一种新颖的两阶段混合过滤流程进行开发,显著提升了数据质量。为了评估其有效性,我们从各种数据集中的100B标记中从头开始训练了一个0.5B参数模型,在零-shot设置下在10个基准测试中表现优异,相比CCI3.0、SkyPile和WanjuanV1。高质量的过滤过程有效地将Qwen2-72B-instruct模型的能力提炼成一个紧凑的0.5B模型,在中国网络数据分类的最佳F1分数方面取得了成功。我们相信这个开放获取的数据集将促进更广泛地获取高质量的语言模型。
扩散模型在生成质量上表现出色,但由于去噪的迭代性质,生成速度较慢。相比之下,一种新的生成模型家族——一致性模型,实现了具有竞争力的性能,并且采样速度显著更快。这些模型通过一致性蒸馏或直接从原始数据进行一致性训练/调整来进行训练。在这项工作中,我们提出了一个新颖的框架,通过将扩散模型的去噪过程建模为马尔可夫决策过程(MDP),并将一致性模型训练构建为通过时间差分(TD)学习进行值估计来理解一致性模型。更重要的是,这个框架使我们能够分析当前一致性训练/调整策略的局限性。基于Easy Consistency Tuning(ECT),我们提出了Stable Consistency Tuning(SCT),它结合了使用评分标识进行方差减少学习。在CIFAR-10和ImageNet-64等基准测试中,SCT实现了显著的性能改进。在ImageNet-64上,SCT实现了1步FID 2.42和2步FID 1.55,成为一致性模型的新SoTA。
当前的图像水印方法容易受到大规模文本到图像模型支持的先进图像编辑技术的影响。这些模型可以在编辑过程中扭曲嵌入的水印,给版权保护带来重大挑战。在这项工作中,我们介绍了W-Bench,这是第一个旨在评估水印方法对抗各种图像编辑技术的鲁棒性的综合基准。这些技术包括图像再生、全局编辑、局部编辑和图像到视频生成。通过对十一种代表性水印方法针对普遍编辑技术的广泛评估,我们展示了大多数方法在此类编辑后无法检测到水印。为了解决这一局限性,我们提出了VINE,一种水印方法,显著增强了对各种图像编辑技术的鲁棒性,同时保持高图像质量。我们的方法涉及两个关键创新:(1)我们分析了图像编辑的频率特性,并确定模糊失真具有类似的频率特性,这使我们能够在训练过程中将其用作替代攻击,以增强水印的鲁棒性;(2)我们利用大规模预训练的扩散模型SDXL-Turbo,将其调整为水印任务,以实现更不可察觉和更强大的水印嵌入。实验结果表明,我们的方法在各种图像编辑技术下实现了出色的水印性能,在图像质量和鲁棒性方面均优于现有方法。代码可在https://github.com/Shilin-LU/VINE找到。
Transformer可以利用自注意力机制捕获长距离依赖关系,使得标记能够直接关注所有其他标记。然而,堆叠多个注意力层会导致注意力过度集中。解决这个问题的一种自然方式是使用跨层注意力,允许较早层的信息直接被后续层访问。然而,这种方法在计算上代价高昂。为了解决这个问题,我们提出了具有残差值(ResFormer)的Transformer,通过将第一层的值添加到所有后续层来近似跨层注意力。基于这种方法,一种变体是具有单层值(SVFormer)的Transformer,其中所有层共享来自第一层的相同值嵌入,将KV缓存减少了近50%。全面的实证证据表明,ResFormer减轻了深层中的注意力过度集中问题,并增强了大多数层的表示,优于基本Transformer、DenseFormer和NeuTRENO在训练错误以及下游任务中的表现。SVFormer的训练速度明显快于基本Transformer,并且优于其他方法如GQA和CLA,其性能受序列长度和累积学习率的影响。
最近在多模态融合领域取得了显著进展,视觉语言(VL)模型取得了令人瞩目的成功,在诸如图像描述和视觉问答等多模态应用中表现出色。然而,构建VL模型需要大量的硬件资源,效率受到两个关键因素的限制:语言模型与视觉特征的扩展输入序列需要更多的计算操作,大量的可学习参数增加了内存复杂性。这些挑战显著限制了这类模型的广泛适用性。为了弥合这一差距,我们提出了ADEM-VL,一种高效的视觉语言方法,通过采用基于预训练大型语言模型(LLMs)的无参数交叉注意力机制来调整VL模型,用于多模态融合中的相似度测量。这种方法只需要将视觉特征嵌入到语言空间中,显著减少了可训练参数的数量,加快了训练和推理速度。为了增强融合模块中的表示学习,我们引入了一种高效的多尺度特征生成方案,只需要通过一次视觉编码器的前向传递。此外,我们提出了一种自适应融合方案,根据每个文本标记的注意力分数动态丢弃不太相关的视觉信息,确保融合过程优先考虑最相关的视觉特征。通过在包括视觉问答、图像描述和遵循指令等各种任务上进行实验,我们展示了我们的框架优于现有方法。具体而言,我们的方法在ScienceQA数据集上的平均准确率比现有方法高出0.77%,同时减少了训练和推理延迟,展示了我们框架的优越性。代码可在https://github.com/Hao840/ADEM-VL找到。
大型语言模型(LLMs)被认为在算术学习方面存在困难,这是由于语言建模和数字计算之间固有的差异,但缺乏具体证据。本研究通过一个双侧实验回应了这一说法。我们首先调查LLMs在算术学习过程中是否利用了部分乘积。我们发现,虽然LLMs在学习后能够识别一些部分乘积,但却未能利用它们进行算术任务。然后,我们探讨了LLMs如何通过将任务分解为子组来符号化地处理算术问题,假设困难源于子组复杂性和选择。我们的结果显示,当子组复杂性固定时,LLMs会类似地处理一系列不同的算术操作。通过分析不同训练规模下的位置级准确性,我们进一步观察到其呈现U形模式:LLMs会迅速学习第一个和最后一个位置上的最简单模式,然后逐渐学习中间位置上更困难的模式。这表明LLMs在学习过程中按照易到难的范式选择子组。我们的研究证实了LLMs在算术任务中是纯符号学习者,并强调通过子组水平量化深入理解它们的重要性。
模型编辑已成为在语言模型内高效更新知识的日益流行的替代方法。当前方法主要关注可靠性、泛化性和局部性,许多方法在这些标准上表现出色。一些最近的研究揭示了这些编辑方法的缺陷,如知识失真或冲突。然而,后编辑语言模型的一般能力尚未被探索。在本文中,我们对各种编辑方法和不同语言模型进行了全面评估,并得出以下发现。 (1) 现有的编辑方法在一般基准上不可避免地导致性能下降,表明现有的编辑方法仅在少数几十次编辑内保持模型的一般能力。当编辑次数稍多时,模型的内在知识结构会被破坏甚至完全损坏。 (2) 针对指令的模型对编辑更具鲁棒性,在编辑后一般知识的性能下降较小。 (3) 大规模语言模型相对于小模型更具抗编辑能力。 (4) 即使对于那些与安全对齐的模型,编辑后模型的安全性也显著减弱。我们的发现表明,当前的编辑方法仅适用于语言模型内小规模知识更新,这促使进一步研究更实用和可靠的编辑方法。代码和复现细节可在 https://github.com/lqinfdim/EditingEvaluation 找到。
本文对Transformer模型[33]中的一些关键组件的数学问题形式化和概率优化探索进行了深入分析,这些组件属于生成式人工智能领域。我们从算法和概率优化的角度探讨并讨论了一些潜在的进一步增强当前生成式人工智能模型关键基础技术的方法。具体而言,我们提出了一种基于类似于[9]中字节对编码(BPE)算法的初始设置的子词编码(SWE)的最优解,其目标类似于[28, 31]中WordPiece方法的目标,即最大化训练数据的似然性。我们还提出了交叉熵优化方法,用于优化word2vec模型[17]的超参数。此外,我们提出了一种将旋转位置编码(RoPE)[32]和带线性偏差的注意力(ALiBi)[23]以及谐波级数进行因式组合的方法。我们还提出了一种概率FlashAttention [6, 7](PrFlashAttention)方法,通过在矩阵上设置一个概率分布来决定哪个块可能参与给定轮次的注意力计算,同时通过重新塑造张量来保持自回归语言模型的张量的下三角形状。最后,我们提出了基于[16]中提出的框架的多查询注意力(MQA)的关键-值(KV)缓存的阶梯自适应量化(SAQ),以在实现合理的模型质量和成本节约的同时实现逐渐的量化退化。
RLHF的主导范式是在线和在线策略RL:同步地从大型语言模型(LLM)策略生成,使用奖励模型进行标记,并利用LLM自身输出的反馈进行学习。尽管性能优越,但这种范式在计算上效率低下。受经典深度RL文献启发,我们提出在RLHF中分离生成和学习。这使得可以异步生成新样本,同时在旧样本上进行训练,从而实现更快的训练和更优化的计算扩展。然而,异步训练依赖于一个未经深入探讨的领域,即在线但离线策略RLHF:在我们模型先前迭代的样本上进行学习。为了了解这个领域中的挑战,我们研究一个基本问题:我们能够容忍多少离线策略性以加速学习但保持性能?在测试的几种RLHF算法中,我们发现在线DPO对离线数据最具鲁棒性,并且鲁棒性随策略模型规模的增加而增加。我们进一步研究了异步RLHF的计算优化,但发现这些优化会带来性能成本,形成一种权衡。最后,我们通过在指令跟随任务上训练LLaMA 3.1 8B来验证异步RLHF的可扩展性,比同步运行快40%,同时保持最终性能。
数据缩放已经彻底改变了自然语言处理和计算机视觉等领域,为模型提供了显著的泛化能力。在本文中,我们研究了在机器人技术中,特别是在机器人操作中是否存在类似的数据缩放规律,以及适当的数据缩放是否能够产生可以在任何环境中针对同一类别的任何物体进行零-shot部署的单任务机器人策略。为此,我们对模仿学习中的数据缩放进行了全面的实证研究。通过在众多环境和物体中收集数据,我们研究了策略的泛化性能如何随着训练环境、物体和演示数量的变化而变化。在我们的研究过程中,我们收集了超过40,000个演示,并在严格的评估协议下执行了超过15,000次真实世界机器人实验。我们的研究结果揭示了一些有趣的发现:策略的泛化性能与环境和物体数量之间大致呈幂律关系。环境和物体的多样性比演示的绝对数量更重要;一旦每个环境或物体的演示数量达到一定阈值,额外的演示就几乎没有效果。基于这些发现,我们提出了一种高效的数据收集策略。通过四名数据收集员工作一个下午,我们收集了足够的数据,使得两项任务的策略在新颖环境中对未见过的物体实现了约90%的成功率。
数据选择对于优化语言模型(LM)在特定任务上的性能至关重要,然而大多数现有方法未能有效考虑目标任务分布。 当前方法要么完全忽略任务特定要求,要么依赖无法捕捉Autoformalization或代码生成等任务所需微妙模式的近似方法。 考虑目标分布的方法通常依赖于简单、有时带有噪声的表示,如哈希n-gram特征,可能导致碰撞并引入噪音。 我们引入了ZIP-FIT,一个数据选择框架,使用gzip压缩直接衡量潜在训练数据与目标任务分布之间的对齐情况。 在Autoformalization和Python代码生成的广泛评估中,ZIP-FIT明显优于DSIR和D4等主流基线。 在ZIP-FIT选择的数据上训练的模型的交叉熵损失最多比基线快85.1\%,表明更好的任务对齐导致更高效的学习。 此外,ZIP-FIT的选择速度最多比DSIR快65.8\%,比D4快两个数量级。 值得注意的是,ZIP-FIT显示,较小但对齐良好的数据集通常优于较大但不够精准的数据集,表明少量高质量数据优于大量低质量数据。 我们的结果暗示,任务感知的数据选择对于有效的领域适应至关重要,而压缩提供了一种衡量任务对齐的原则方法。 通过展示有针对性的数据选择可以显著改善任务特定性能,我们的工作为数据质量、任务对齐和模型学习效率之间的关系提供了新的见解。
我们考虑多次草案的推测抽样,其中提议序列是从不同草案模型独立抽样的。在每一步中,一个基于标记级别的草案选择方案接受有效标记列表作为输入,并生成一个输出标记,其分布与目标模型相匹配。先前的研究表明,最优方案(最大化接受输入标记之一的概率)可以被视为线性规划的解决方案。在这项工作中,我们展示了最优方案可以分解为两步解决方案:在第一步中,使用一种重要性抽样(IS)类型方案选择一个中间标记;在第二步中,应用(单次草案)推测抽样来生成输出标记。对于两个相同的草案模型的情况,我们进一步1)确定目标模型和草案模型的分布使得接受概率等于一的必要和充分条件,2)提供最优接受概率的显式表达式。我们的理论分析还推动了一类基于加权重要性抽样的标记级别选择方案。我们的实验结果表明,在许多场景中,与基准方案相比,可实现的块效率和标记速率均有一致改进。
机器辅助定理证明是指通过进行结构化推理来自动生成数学定理证明的过程。最近,人们对将机器学习模型与证明助手结合使用以执行此任务表现出了极大的兴趣。在本文中,我们介绍了 Pantograph,这是一个工具,提供了与 Lean 4 证明助手的多功能接口,并通过强大的搜索算法(如蒙特卡洛树搜索)实现高效的证明搜索。此外,Pantograph 通过更强大地处理 Lean 4 推理步骤,实现了高层次推理。我们概述了 Pantograph 的架构和特性。我们还报告了一个示例用例:使用机器学习模型和证明草图来证明 Lean 4 的定理。Pantograph 的创新特性为更先进的机器学习模型执行复杂的证明搜索和高层次推理铺平了道路,为未来的研究人员设计更多功能强大的定理证明器提供了支持。