每日精选AI研究论文及翻译
作为一种基本的视觉推理能力,视觉数学推理受到了大型多模型(LMMs)社区的广泛关注。现有的基准测试,如MathVista和MathVerse,更注重结果导向的性能,但忽略了知识获取和泛化中的基本原则。受人类式数学推理启发,我们引入了WE-MATH,这是专门设计用于探索超越端到端性能的解决问题原则的第一个基准测试。我们精心收集和分类了6.5K个视觉数学问题,涵盖了67个层次化知识概念和五层知识粒度。我们根据所需的知识概念将复合问题分解为子问题,并引入了一种新颖的四维度指标,即不足知识(IK)、不充分泛化(IG)、完全掌握(CM)和死记硬背(RM),以层次化评估LMMs推理过程中的固有问题。通过WE-MATH,我们对现有的LMMs在视觉数学推理中进行了彻底评估,并揭示了解决步骤与特定问题性能之间的负相关性。我们确认LMMs的IK问题可以通过知识增补策略有效改善。更值得注意的是,GPT-4o的主要挑战已经从IK显著转变为IG,将其确立为首个朝着知识泛化阶段前进的LMM。相比之下,其他LMMs倾向于死记硬背——它们可以正确解决涉及多个知识概念的复合问题,但无法回答子问题。我们预计WE-MATH将为LMMs在视觉数学推理方面的进展开辟新途径。WE-MATH的数据和评估代码可在https://github.com/We-Math/We-Math获得。
我们提出了一个框架,用于通过自然语言提示和来自机器人操作系统(ROS)的上下文信息,使非专家能够直观地对机器人进行编程。我们的系统集成了大型语言模型(LLMs),使非专家能够通过聊天界面向系统表达任务需求。该框架的关键特点包括:将ROS与连接到大量开源和商业LLMs的人工智能代理进行集成,从LLM输出中自动提取行为并执行ROS操作/服务,支持三种行为模式(顺序、行为树、状态机),模仿学习用于将新的机器人动作添加到可能动作库中,以及通过人类和环境反馈实现LLM反思。广泛的实验证实了该框架的鲁棒性、可扩展性和多功能性,展示了在不同场景下的长期任务、桌面重新布置和远程监督控制等方面的优势。为了促进我们框架的采用并支持我们结果的再现,我们已经将我们的代码开源。您可以在以下网址访问:https://github.com/huawei-noah/HEBO/tree/master/ROSLLM。
文档是通过文本、表格、图表、页面布局或字体传达信息的视觉丰富结构。虽然现代文档检索系统在查询与文本匹配方面表现出色,但它们在高效利用视觉线索方面存在困难,从而影响了它们在实际文档检索应用(如检索增强生成)中的性能。为了对视觉丰富文档检索的当前系统进行基准测试,我们引入了视觉文档检索基准ViDoRe,包括跨多个领域、语言和设置的各种页面级检索任务。现代系统的固有缺陷促使引入一种新的检索模型架构ColPali,它利用最近的视觉语言模型的文档理解能力,仅从文档页面的图像中生成高质量的上下文嵌入。结合后期交互匹配机制,ColPali在很大程度上优于现代文档检索流程,同时速度大大提高且端到端可训练。
最近的研究表明,树搜索算法(例如蒙特卡洛树搜索)可以显著提升LLM在复杂数学推理任务上的性能。然而,由于浪费性的搜索策略,它们通常需要超过贪婪解码超过10倍的计算资源,这使得它们难以在实际应用中部署。本研究引入了一种新颖的引导树搜索算法,具有动态节点选择和节点级别探索预算(最大子节点数量)计算,以解决这一问题。通过考虑朝着最终答案(历史)的搜索进展和来自值网络(未来)的指导,该算法在分配的计算预算范围内迭代选择最有前途的树节点,然后扩展它。在GSM8K和TabMWP数据集上进行的实验表明,我们的方法不仅提供了竞争性的性能,而且与基线方法相比,计算成本显著降低。
大型语言模型预训练的数据混合显著影响性能,然而如何确定有效的混合仍不清楚。我们提出了RegMix,通过将其构建为回归任务,自动识别高性能数据混合。RegMix包括训练一组具有不同数据混合的小型模型,并拟合回归模型以预测它们在各自混合下的性能。利用拟合的回归模型,我们模拟排名靠前的混合,并用它来训练一个计算量更大几个数量级的大规模模型。为了在实证上验证RegMix,我们训练了512个具有100万参数的模型,使用10亿标记的不同混合来拟合回归模型并找到最佳混合。使用这个混合,我们训练了一个具有10亿参数的模型,使用了250亿标记(即比例放大了1000倍,时间延长了25倍),我们发现这个模型在64个候选的具有其他混合的10亿参数模型中表现最佳。此外,我们的方法表现出比人类选择更优越的性能,并取得与DoReMi相匹配或超越的结果,同时只利用了10%的计算预算。我们的实验还表明:(1)数据混合对性能有显著影响,单任务性能变化高达14.6%;(2)与维基百科等被认为是高质量数据不同,网络语料库与下游性能有最强烈的正相关性;(3)领域之间以复杂方式相互作用,常常违背常识,因此需要像RegMix这样的自动方法;(4)数据混合效应超越了规模定律,我们的方法通过考虑所有领域的方式捕捉了这种复杂性。我们的代码可在https://github.com/sail-sg/regmix找到。
大型多模态模型(LMMs)展现出令人印象深刻的跨模态理解和推理能力,通常通过包含图像、问题和多个选项的多项选择题(MCQs)进行评估。然而,许多用于此类评估的基准存在系统性偏差。值得注意的是,没有任何视觉感知能力的大型语言模型(LLMs)也能取得非平凡的表现,从而削弱了这些评估的可信度。为了解决这个问题,同时保持MCQ评估的效率,我们提出了MMEvalPro,这是一个旨在避免第一类错误的基准,通过三部曲评估流程和更严格的度量标准。对于现有基准中的每个原始问题,人类标注者通过精细的注释过程,通过创建一个感知问题和一个知识锚问题来扩充它。MMEvalPro包括2,138个问题三元组,总共6,414个不同问题。其中三分之二的问题由人类专家手动标记,其余的来自现有基准(MMMU、ScienceQA和MathVista)。与现有基准相比,我们对最新的LLMs和LMMs进行的实验表明,MMEvalPro更具挑战性(最佳LMM的表现落后于人类表现31.73%,而之前基准的平均差距为8.03%),更值得信赖(最佳LLM落后于最佳LMM 23.09%,而之前基准的差距仅为14.64%)。我们的深入分析解释了表现差距的原因,并证明了评估的可信度,突显了其对推动未来研究具有重要潜力。
本文采用了一种新的自回归图像生成方法,其基于两个主要要素。第一个要素是小波图像编码,它允许将图像的视觉细节从粗糙到精细的顺序进行标记,方法是从最显著的小波系数的最显著位开始对信息进行排序。第二个要素是一种语言变换器的变体,其架构经过重新设计和针对在这种“小波语言”中的标记序列进行了优化。变换器学习了标记序列中的显著统计相关性,这些相关性是各种分辨率小波子带之间已知相关性的表现。我们展示了在生成过程中进行条件处理的实验结果。
直接偏好优化(DPO)已被证明在提高大型语言模型(LLMs)在推理和对齐等下游任务上的性能方面是有效的。在这项工作中,我们提出了步骤控制的DPO(SCDPO),这是一种通过创建数学推理基础的负样本并从指定步骤开始制造错误,从而自动提供分步错误监督的方法。通过在DPO训练中应用这些样本,SCDPO可以更好地使模型对理解推理错误并输出准确的推理步骤进行对齐。我们将SCDPO应用于代码集成和思维链解决方案,经验性地表明它相对于朴素DPO在三种不同的SFT模型上均能持续改善性能,包括一个现有的SFT模型和两个我们微调的模型。对SCDPO和DPO的学分分配进行定性分析表明了SCDPO在识别数学解决方案中的错误方面的有效性。然后我们将SCDPO应用于InternLM2-20B模型,得到一个在GSM8K上达到88.5%、在MATH上达到58.1%的20B模型,与所有其他开源LLMs相媲美,展示了我们方法的巨大潜力。
本文介绍了一种利用预训练图像恢复扩散模型进行零样本视频恢复的方法。传统视频恢复方法通常需要针对不同设置进行重新训练,并且在各种退化类型和数据集之间存在有限的泛化能力。我们的方法使用分层令牌合并策略来处理关键帧和局部帧,结合了混合对应机制,将光流和基于特征的最近邻匹配(潜在合并)相结合。我们展示了我们的方法不仅在零样本视频恢复方面取得了最佳性能,而且在跨多个数据集和极端退化(8倍超分辨率和高标准差视频降噪)方面显著超越了经过训练的模型的泛化能力。我们通过定量指标和在各种具有挑战性的数据集上的视觉比较提供了证据。此外,我们的技术适用于任何2D恢复扩散模型,为视频增强任务提供了一种多功能且强大的工具,无需进行大量重新训练。这项研究促进了更高效且广泛适用的视频恢复技术的发展,支持需要高质量视频输出的领域的进步。请访问我们的项目页面以查看视频结果:https://jimmycv07.github.io/DiffIR2VR_web/。
风格迁移是一种创新的过程,旨在创造一幅保留原始本质但融合另一种视觉风格的图像。尽管扩散模型在个性化主题驱动或风格驱动应用中展示出令人印象深刻的生成能力,但现有的最先进方法仍然在实现内容保留和风格增强之间的无缝平衡方面遇到困难。例如,放大风格的影响往往会削弱内容的结构完整性。为了解决这些挑战,我们将风格迁移任务分解为三个核心要素:1) 风格,专注于图像的美学特征;2) 空间结构,涉及视觉元素的几何排列和构图;以及3) 语义内容,捕捉图像的概念含义。在这些原则的指导下,我们引入了InstantStyle-Plus,这是一种强调保持原始内容完整性并无缝集成目标风格的方法。具体而言,我们的方法通过一种高效、轻量级的过程实现风格注入,利用了尖端的InstantStyle框架。为了加强内容保留,我们首先使用反转的内容潜在噪声和一个多功能的即插即用的Tile ControlNet来保留原始图像的固有布局。我们还结合了全局语义适配器来增强语义内容的保真度。为了防止风格信息的稀释,我们使用风格提取器作为鉴别器,提供补充的风格指导。代码将在https://github.com/instantX-research/InstantStyle-Plus 上提供。
语言模型能力的提升推动了其应用范围向更长上下文发展,使得长上下文的评估和开发成为一个活跃的研究领域。然而,在“长上下文”这一总称下,许多不同的用例被归为一类,仅通过模型输入的总长度来定义,包括例如“大海捞针”任务、书籍摘要和信息聚合等。鉴于它们各自的难度不同,在本文中我们认为通过上下文长度来混淆不同任务是不具生产性的。作为一个社区,我们需要更精确的词汇来理解长上下文任务之间的相似性或差异性。我们建议根据使任务在更长上下文中更难的属性来拆分长上下文的分类体系。我们提出了两个正交的难度维度:(一)扩散:在上下文中找到必要信息有多难?(二)范围:需要找到多少必要信息?我们调查了关于长上下文的文献,为这一分类体系提供了合理性论据,并将文献置于其中。我们得出结论,那些最困难和有趣的设置,其中必要信息非常长且在输入中高度扩散的情况,目前研究不足。通过使用描述性词汇并讨论长上下文难度的相关属性,我们可以在这一领域实施更具信息的研究。我们呼吁谨慎设计具有明显长上下文的任务和基准测试,并考虑使其在质上与较短上下文有所不同的特征。
本文介绍了尴尬简单文本转语音(E2 TTS),这是一个完全非自回归的零样本文本转语音系统,具有人类水平的自然度以及最先进的说话者相似性和可懂性。在E2 TTS框架中,文本输入被转换为带有填充标记的字符序列。然后基于音频填充任务训练基于流匹配的梅尔频谱图生成器。与许多先前的工作不同,它不需要额外的组件(例如,持续时间模型,字素到音素)或复杂的技术(例如,单调对齐搜索)。尽管其简单性,E2 TTS实现了与或超过Voicebox和NaturalSpeech 3等先前作品相媲美的最先进的零样本TTS能力。E2 TTS的简单性还允许在输入表示中灵活性。我们提出了几种E2 TTS的变体以提高推断过程中的可用性。请查看https://aka.ms/e2tts/以获取演示样本。
在计算机视觉中,通用人物音频驱动的人脸生成是一项具有挑战性的任务。先前的方法在音频-视觉同步方面取得了显著进展,但目前的结果与实际应用之间仍存在显著差距。挑战主要包括两个方面:1)保留独特的个体特征以实现高精度的嘴唇同步;2)实时性能下生成高质量的面部渲染。在本文中,我们提出了一种新颖的通用音频驱动框架RealTalk,它包括一个音频到表情转换器和一个高保真度的表情到人脸渲染器。在第一个组件中,我们考虑了与说话嘴唇运动相关的身份和个人内部变化特征。通过在丰富的面部先验上融入跨模态注意力,我们可以有效地将嘴唇运动与音频对齐,从而实现更高的表情预测精度。在第二个组件中,我们设计了一个轻量级的面部身份对齐(FIA)模块,其中包括一个嘴唇形状控制结构和一个面部纹理参考结构。这种新颖的设计使我们能够实时生成细节,而无需依赖复杂且低效的特征对齐模块。我们在公共数据集上的实验结果,无论是定量还是定性的,都展示了我们的方法在嘴唇-语音同步和生成质量方面的明显优势。此外,我们的方法高效且需要较少的计算资源,使其非常适合满足实际应用的需求。
最近大型语言模型(LLMs)的进展使LLM代理能够自主收集世界信息,并进行推理以解决复杂问题。鉴于这种能力,人们越来越倾向于利用LLM代理来预测国际事件,这可以影响决策并塑造国际政策发展。尽管存在这种日益增长的兴趣,但缺乏对LLM代理预测能力和可靠性的严格基准。为了弥补这一空白,我们引入了MIRAI,一个新颖的基准,旨在系统评估LLM代理作为国际事件时间预测者的能力。我们的基准环境具有工具,可访问大量历史结构化事件和文本新闻文章的数据库。我们通过仔细清理和解析完善了GDELT事件数据库,策划了一系列关系预测任务,涵盖不同的预测时间范围,评估LLM代理从短期到长期预测的能力。我们进一步实现了API,使LLM代理能够通过基于代码的接口利用不同工具。总之,MIRAI全面评估了代理在三个方面的能力:1)自主从大型全球数据库中获取和整合关键信息;2)使用领域特定API和库编写代码以使用工具;以及3)共同推理历史知识,涵盖不同格式和时间,以准确预测未来事件。通过全面的基准测试,我们旨在建立一个可靠的框架,评估LLM代理在预测国际事件方面的能力,从而为开发更准确可靠的国际关系分析模型做出贡献。
基于扩散的模型展现出在生成具有不同布局的高质量图像方面的巨大潜力,这有助于下游感知任务。然而,仅由语言驱动的完全自动布局生成以及用于衡量多个生成实例的合适度量尚未得到很好的探索。在这项工作中,我们提出了Auto Cherry-Picker(ACP),这是一个新颖的框架,用于生成高质量的多模态训练示例,以增强感知和多模态训练。从一个简单的自然语言概念列表开始,我们促使大型语言模型(LLMs)生成详细描述并设计合理的布局。接下来,我们使用现成的文本到图像模型生成多个图像。然后,利用一个全面设计的度量对生成的数据进行改进以确保质量。特别地,我们提出了一个新的度量,即复合布局和图像分数(CLIS),用于公平评估生成的图像。我们的合成高质量示例通过定制初始概念列表在各种场景中提升性能,特别是在解决长尾分布和不平衡数据集相关挑战方面。下游任务的实验结果表明,Auto Cherry-Picker可以显著提高现有模型的性能。此外,我们已经深入研究了CLIS与下游任务性能提升之间的相关性,发现更好的CLIS分数会导致更好的性能。这一发现显示了评估指标在各种视觉感知和MLLM任务中的潜力。代码将会提供。
我们提出了OmniJARVIS,这是一个新颖的视觉-语言-行动(VLA)模型,用于开放世界Minecraft中的指令跟随代理。与以往的工作相比,以前者要么向单独的控制器发出文本目标,要么直接产生控制命令不同,OmniJARVIS通过统一的多模态交互数据的标记化,寻求一条确保强大推理和高效决策能力的不同路径。首先,我们介绍了一种自监督方法,用于学习生成行为轨迹 tau = {o_0, a_0, 等} 的行为编码器,并且一个以这些标记为条件的模仿学习(IL)策略解码器。这些额外的行为标记将被增加到预训练的多模态语言模型(MLMs)的词汇表中。借助这个编码器,我们将长期的多模态交互(涉及任务说明、记忆、思考、观察、文本响应、行为轨迹等)打包成统一的标记序列,并使用自回归变压器对其进行建模。由于语义上有意义的行为标记,最终的VLA模型OmniJARVIS能够通过生成思维链进行推理、规划、回答问题,并通过为IL策略解码器生成行为标记来行动。OmniJARVIS在开放世界Minecraft中的全面原子、程序化和开放式任务集合上表现出色。我们的分析进一步揭示了交互数据形成、统一标记化及其扩展潜力中的关键设计原则。
大型语言模型(LLMs)在各种自然语言处理(NLP)任务中展现出令人印象深刻的熟练程度,这些任务涉及日益复杂的推理。知识推理作为一种主要推理类型,旨在从现有知识中推导出新知识。虽然知识图谱(KGs)的背景下已被广泛研究,但LLMs中的知识推理仍未被充分探索。在本文中,我们介绍了“知识链”(Chain-of-Knowledge),这是一个包括数据集构建和模型学习方法的知识推理全面框架。对于数据集构建,我们通过在知识图谱上进行规则挖掘创建了KnowReason。对于模型学习,我们观察到由于朴素训练而引起的规则过拟合。因此,我们通过一种模拟内部知识探索人类过程的试错机制增强了CoK。我们对KnowReason进行了大量实验。我们的结果显示了CoK在提升LLMs在知识推理以及一般推理基准测试中的有效性。
在边缘设备上部署大型语言模型(LLMs)对于增强设备上的智能至关重要。权重量化对于减少设备上LLMs的内存占用至关重要。然而,低比特LLMs在推断期间需要低精度权重和高精度激活的混合精度矩阵乘法(mpGEMM)。现有系统缺乏对mpGEMM的本机支持,因此不得不对高精度计算的权重进行去量化。这种间接方式可能导致显著的推断开销。 在本文中,我们介绍了T-MAC,这是一种基于查找表(LUT)的创新方法,旨在在CPU上高效进行低比特LLM(即,量化权重的LLM)推断。T-MAC直接支持mpGEMM,无需去量化,同时消除了所需的乘法并减少了加法。具体来说,T-MAC将传统的数据类型中心的乘法转换为按位表查找,并实现了统一且可扩展的mpGEMM解决方案。 我们基于查找表的内核与权重位宽呈线性比例。在低比特Llama和BitNet模型上评估,与llama.cpp相比,T-MAC的吞吐量增加了最多4倍,能源消耗减少了70%。对于BitNet-b1.58-3B,T-MAC在M2-Ultra上单核心可实现30个令牌/s的生成吞吐量,八核心可实现71个令牌/s,而在Raspberry Pi 5等低端设备上为11个令牌/s,远远超过成年人的平均阅读速度。基于查找表的计算范式的T-MAC为在资源受限的边缘设备上实现低比特LLMs铺平了道路,而不会影响计算效率。该系统的开源地址为https://github.com/microsoft/T-MAC。
自监督学习(SSL)通过减少对标记数据的需求,帮助扩展语音技术应用到更多语言。然而,目前的模型仍远未支持世界上7000多种语言。我们提出了XEUS,一种用于普适语音的跨语言编码器,经过在4057种语言上超过100万小时数据的训练,将SSL模型的语言覆盖范围扩展了4倍。我们将现有公开可访问的语料库中的100万小时语音与新创建的涵盖4057种语言的7400多小时语料库相结合,后者将公开发布。为了处理多语言语音数据的多样化条件,我们将典型的SSL掩码预测方法与一种新颖的去混响目标相结合,以增强鲁棒性。我们在多个基准测试上评估了XEUS,并展示它在各种任务中始终优于或达到与最先进的SSL模型相媲美的结果。XEUS在ML-SUPERB基准测试中创造了新的最先进水平:尽管参数或预训练数据较少,但它分别比MMS 1B和w2v-BERT 2.0 v2高出0.8%和4.4%。检查点、代码和数据可在https://www.wavlab.org/activities/2024/xeus/找到。
视频生成模型已经展示出了生成令人印象深刻的单眼视频的巨大能力,然而,生成3D立体视频仍然是一个未被充分探索的领域。我们提出了一种无需姿势和训练的方法,利用现成的单眼视频生成模型生成3D立体视频。我们的方法通过使用估计的视频深度,将生成的单眼视频变形成立体基线上的摄像机视图,并采用了一种新颖的帧矩阵视频修补框架。该框架利用视频生成模型来修补从不同时间戳和视角观察到的帧。这种有效的方法生成一致且语义连贯的立体视频,无需场景优化或模型微调。此外,我们开发了一种消除边界重新注入方案,通过减轻潜在空间中来自未遮挡区域的负面影响,进一步提高视频修补的质量。我们通过在来自各种生成模型的视频上进行实验来验证我们提出的方法的有效性,包括Sora [4]、Lumiere [2]、WALT [8]和Zeroscope [42]。实验证明我们的方法明显优于先前的方法。代码将在https://daipengwa.github.io/SVG_ProjectPage发布。
最近,出现了几种专门针对命名实体识别(NER)进行调优的大型语言模型(LLMs)。与传统的NER方法相比,这些模型具有强大的泛化能力。现有的LLMs主要专注于零样本NER在域外分布上,通过在大量实体类别上进行微调,这些类别通常与测试集高度或完全重叠。相反,在这项工作中,我们提出了SLIMER,一种旨在通过指导模型少量示例并利用富含定义和指南的提示来解决以前从未见过的命名实体标签的方法。实验证明,定义和指南可以提高性能,加快和增强学习,特别是在标记未知命名实体时。此外,SLIMER在域外零样本NER中表现出与最先进方法相当的性能,同时在经过减少的标签集上进行训练。
人类反馈强化学习(RLHF)是一种流行的策略,用于使大型语言模型(LLMs)与期望的行为保持一致。奖励建模是RLHF中的关键步骤。然而,为训练奖励模型收集成对偏好数据通常是昂贵且耗时的,尤其是对于需要专家标注的领域特定偏好。为了解决这一挑战,我们提出了领域知识融合奖励模型(DogeRM),这是一个通过模型合并将领域特定知识整合到通用奖励模型中的新框架。实验证明,DogeRM提高了在不同基准测试中的性能,并提供了详细分析,展示了模型合并的效果,显示了促进模型对齐的巨大潜力。
LLM以大致对应于单词的令牌序列处理文本,其中较不常见的单词由多个令牌表示。然而,个别令牌通常与它们组成的单词/概念的含义无关。例如,Llama-2-7b的分词器将单词"northeastern"分割为令牌['_n', 'ort', 'he', 'astern'],其中没有一个对应于"north"或"east"等语义上有意义的单元。同样,诸如"Neil Young"这样的命名实体和"break a leg"这样的多词表达的整体含义也不能直接从其组成令牌中推断出。从机械角度来看,LLM是如何将这种任意的令牌组转换为有用的高级表示的?在这项工作中,我们发现命名实体和多令牌单词的最后一个令牌表示呈现出明显的"擦除"效应,即在早期层中关于先前和当前令牌的信息很快被遗忘。利用这一观察结果,我们提出了一种方法,通过检查跨层的令牌表示差异来"读取"自回归LLM的隐式词汇,并展示了这种方法在Llama-2-7b和Llama-3-8B上的结果。据我们所知,这是首次尝试探究LLM的隐式词汇。
我们描述了使用微调预训练生成式小语言模型(SLMs)准确预测配体-蛋白相互作用(LPI)亲和力的方法,也被称为药物-靶标相互作用(DTI)。我们在零样本设置中针对与配体-蛋白相互作用相关的一系列亲和力数值实现了准确预测。模型的输入仅为配体的SMILES字符串和蛋白的氨基酸序列。我们的结果表明,在准确预测一系列配体-蛋白相互作用亲和力方面,与基于机器学习(ML)和自由能扰动(FEP+)的方法相比,实现了明显的改进,这可以进一步加速针对具有挑战性治疗靶点的药物发现活动。
精确反学习最初被引入作为一种隐私机制,允许用户根据请求从机器学习模型中撤回其数据。不久之后,提出了不精确方案以缓解与精确反学习相关的不切实际成本。最近,反学习经常被讨论作为一种用于移除不允许的知识的方法,即模型不应该拥有的知识,例如未经许可的版权、不准确或恶意信息。承诺是,如果模型没有某种恶意能力,那么它就无法用于相关的恶意目的。在本文中,我们重新审视了反学习在大型语言模型(LLMs)中的应用范式,并突出了由于上下文学习而产生的潜在不一致性。反学习可以作为训练阶段的有效控制机制,但它无法阻止模型在推断过程中执行不允许的行为。我们引入了反反学习的概念,其中被反学习的知识在上下文中重新引入,有效地使模型能够表现得好像它知道被遗忘的知识一样。因此,我们认为将需要对不允许的知识进行内容过滤,即使是精确反学习方案也不足以实现有效的内容监管。我们讨论了将反反学习应用于现代LLMs的可行性,并检验了更广泛的影响。
前沿的人工智能系统,包括大型语言模型(LLMs),对人类用户的认识论产生越来越大的影响。这种影响可以强化当前社会价值观,潜在地导致错误道德信念的固化,从而在广泛范围内延续问题性道德实践。我们提出进步对齐作为一种技术解决方案,以减轻这一即将到来的风险。进步对齐算法学习模仿人类道德进步的机制,从而解决现有对齐方法对当代道德盲点的敏感性。为促进进步对齐领域的研究,我们引入了ProgressGym,一个实验框架,允许从历史中学习道德进步的机制,以促进未来在现实世界道德决策中的进步。利用9个世纪的历史文本和18个历史LLMs,ProgressGym使得将现实世界的进步对齐挑战编码为具体基准成为可能。具体而言,我们介绍了三个核心挑战:追踪不断演变的价值观(PG-Follow)、预测道德进步(PG-Predict)以及调节人类和人工智能价值转变之间的反馈循环(PG-Coevolve)。没有时间维度的对齐方法无法应用于这些任务。作为回应,我们提出了终身学习和外推算法作为进步对齐的基线方法,并建立了一个开放的排行榜,征集新颖的算法和挑战。该框架和排行榜分别可在以下链接找到:https://github.com/PKU-Alignment/ProgressGym 和 https://huggingface.co/spaces/PKU-Alignment/ProgressGym-LeaderBoard。
对于大型语言模型(LLMs)来说,遵循多条指令是一项至关重要的能力。评估这种能力存在着重大挑战:(i)多条指令之间的连贯性有限,(ii)位置偏见,即指令顺序影响模型性能,以及(iii)缺乏客观可验证的任务。为了解决这些问题,我们引入了一个基准测试,旨在通过顺序指令跟踪(SIFo)任务评估模型遵循多条指令的能力。在SIFo中,通过仅检查最终指令即可验证成功完成多条指令。我们的基准测试使用四个任务(文本修改、问题回答、数学和安全规则遵循)来评估指令跟踪的能力,每个任务评估顺序指令跟踪的不同方面。我们对流行的LLMs进行评估,包括闭源和开源模型,结果显示,更新且更大的模型在SIFo任务上明显优于旧的和较小的模型,验证了基准测试的有效性。所有模型在遵循指令序列方面都存在困难,暗示了当今语言模型重要的鲁棒性缺失。