每日精选AI研究论文及翻译
测试时间缩放(TTS)是通过在推断阶段使用额外计算来改善大型语言模型(LLMs)性能的重要方法。然而,目前的研究并未系统分析策略模型、过程奖励模型(PRMs)和问题难度如何影响TTS。这种分析缺失限制了对TTS方法的理解和实际应用。本文关注两个核心问题:(1)在不同策略模型、PRMs和问题难度水平之间扩展测试时间计算的最佳方法是什么?(2)在复杂任务上,延长计算能力能够提高LLMs的性能到什么程度,较小的语言模型能否通过这种方法胜过较大的模型?通过对MATH-500和具有挑战性的AIME24任务进行全面实验,我们得出以下观察结果:(1)计算最优的TTS策略高度依赖于策略模型、PRM和问题难度的选择。(2)采用我们计算最优的TTS策略,极小的策略模型可以胜过较大的模型。例如,1B LLM在MATH-500上可以超过405B LLM。此外,在MATH-500和AIME24上,0.5B LLM胜过GPT-4o,3B LLM超越405B LLM,7B LLM击败o1和DeepSeek-R1,同时具有更高的推断效率。这些发现表明,将TTS策略调整到每个任务和模型的特定特征至关重要,并且表明TTS是增强LLMs推理能力的一种有前途的方法。
现有的多语言文本净化方法受到平行多语言数据集稀缺的限制。在本研究中,我们介绍了一个用于生成多语言平行净化数据的流程。我们还推出了SynthDetoxM,这是一个手动收集和合成生成的多语言平行文本净化数据集,包括德语、法语、西班牙语和俄语,共包含16,000个高质量的净化句对。这些数据来自不同的毒性评估数据集,然后在少样本设置下,使用了九种现代开源LLM对其进行重写。我们的实验表明,在数据有限的情况下,训练在生成的合成数据集上的模型性能优于在人工注释的MultiParaDetox数据集上训练的模型。在少样本设置下,训练在SynthDetoxM上的模型胜过所有评估的LLM。我们发布了我们的数据集和代码,以帮助进一步研究多语言文本净化。
推理能力,特别是解决复杂数学问题的能力,是智能的关键组成部分。像OpenAI的o-series模型这样的专有公司最近在推理任务上取得了显著进展。然而,完整的技术细节仍未披露,目前认为采用的技术只有强化学习(RL)和长序列思维。本文提出了一个新的RL框架,称为OREAL,旨在通过基于结果奖励的强化学习来追求数学推理任务的性能极限,其中只有二元结果奖励是容易获得的。我们在理论上证明,从最佳N(BoN)抽样的正轨迹上的行为克隆足以学习二元反馈环境中的KL正则化最优策略。这一公式进一步暗示,负样本的奖励应重新塑造,以确保正负样本之间的梯度一致性。为了缓解强化学习中由稀疏奖励带来的长期困难,这些困难甚至被用于推理任务的长序列思维的部分正确性所加剧,我们进一步应用了一个基于令牌级别的奖励模型,以对推理轨迹中的重要令牌进行采样学习。通过OREAL,第一次,一个7B模型可以通过RL在MATH-500上获得94.0的pass@1准确率,与32B模型不相上下。OREAL-32B还超过了之前通过蒸馏训练的32B模型,在MATH-500上获得95.0的pass@1准确率。我们的研究还表明了RL的初始策略模型和训练查询的重要性。代码、模型和数据将被发布以造福未来的研究。
在本文中,我们介绍了“深度诅咒”这一概念,它突出、解释并解决了现代大型语言模型(LLMs)中近一半层次的效果不如预期的最新观察。我们首先确认了这一现象在最流行的LLMs家族(如Llama、Mistral、DeepSeek和Qwen)中的广泛存在。我们的分析在理论和实证上确定,导致LLMs深层次效果不佳的根本原因是广泛使用的预层归一化(Pre-LN)。虽然Pre-LN稳定了Transformer LLMs的训练,但随着模型深度增加,其输出方差呈指数增长,导致深层Transformer块的导数成为单位矩阵,因此几乎不对训练产生贡献。为了解决这一训练陷阱,我们提出了LayerNorm Scaling,通过将层归一化的输出方差按深度的平方根的倒数进行缩放。这一简单修改减轻了更深Transformer层的输出方差爆炸问题,提高了它们的贡献。我们的实验结果涵盖了从130M到1B的模型规模,表明与Pre-LN相比,LayerNorm Scaling显著提升了LLM的预训练性能。此外,这一改进顺利地延续到监督微调。所有这些收益都归因于LayerNorm Scaling使更深层次在训练过程中更有效地发挥作用。
在多智能体环境中,使用自然语言进行交流是一种强大的工具,因为它使独立智能体能够在部分可观察的情境中共享信息,并允许与人类进行零-shot协调。然而,大多数先前的研究存在局限性,因为它们要么依赖于大量人类示范进行训练,要么缺乏生成自然且有用的交流策略的能力。在这项工作中,我们训练语言模型在自然语言中就其环境展开富有成效的讨论,而无需任何人类示范。我们将交流问题分解为倾听和表达两个部分。我们的关键思想是利用智能体的目标,将预测有关世界的有用信息作为密集奖励信号,以引导交流。具体来说,我们通过训练模型根据讨论内容预测环境信息来提高模型的倾听能力,并通过多智能体强化学习同时提高模型的表达能力,通过奖励消息的影响他智能体来实现。为了研究在复杂社交环境中交流的作用和必要性,我们研究了一款基于《谁是卧底》的具身社交推理游戏,其中需要回答的关键问题是对手卧底的身份。我们分析了由于我们的技术而产生的新行为,如指控嫌疑人和提供证据,并发现这种方法促进了充分的讨论,使胜率翻倍,相较于标准强化学习。我们在https://socialdeductionllm.github.io/发布了我们的代码和模型。
量化模型权重对于减少大型模型的通信和推断成本至关重要。然而,将模型量化,特别是到像int4或int2这样的低精度,需要在模型质量上进行权衡;特别是int2已知会严重降低模型质量。因此,从业者通常被迫维护具有不同量化级别的多个模型,或提供一个最符合质量-延迟权衡的单个模型。另一方面,整数数据类型,如int8,固有地具有嵌套(Matryoshka)结构,其中较小位宽的整数,如int4或int2,嵌套在最重要的位中。本文提出了Matryoshka量化(MatQuant),这是一种新颖的多尺度量化技术,解决了需要多个量化模型的挑战。它允许训练和维护只一个模型,然后可以以不同精度级别提供服务。此外,由于MatQuant提供的共同训练和共同蒸馏正则化,由MatQuant提取的int2精度模型比标准int2量化(使用QAT或OmniQuant等技术)的模型准确度高达10%。这代表了模型量化方面的重大进展,事实证明,使用相同的方法,一个int2 FFN-量化的Gemma-2 9B模型比一个int8 FFN-量化的Gemma-2 2B模型更准确。
本文介绍了大内存模型(LM2),这是一种仅包含解码器的Transformer架构,增加了一个辅助内存模块,旨在解决标准Transformer在多步推理、关系论证和合成分布在长上下文中的信息方面的局限性。LM2采用了一个内存模块,作为一个上下文表示存储库,通过交叉注意力与输入标记进行交互,并通过门控机制进行更新。为了保留Transformer的通用功能,LM2保持了原始信息流,同时整合了一个补充的内存路径。在BABILong基准测试上的实验结果表明,LM2模型在各项任务上的表现均优于记忆增强的RMT模型37.1%,以及基准Llama-3.2模型86.3%。LM2在多跳推理、数值推理和大上下文问答方面表现出卓越能力。在MMLU数据集上,它比一个预训练的普通模型提高了5.0%,表明其内存模块不会降低在通用任务上的性能。此外,在我们的分析中,我们探讨了内存的可解释性、内存模块的有效性以及测试时的行为。我们的发现强调了显式内存在增强Transformer架构中的重要性。
大型语言模型(LLMs)在代码生成和问题解决方面取得了重大进展。当前的方法采用基于外部工具的迭代调试器,利用编译器或其他基于工具的运行时反馈来优化各种方法生成的粗糙程序。然而,这些方法的有效性在很大程度上取决于初始代码生成的质量,这仍然是一个挑战。在本文中,我们介绍了CodeSim,这是一个新颖的多智能体代码生成框架,通过类似人类感知的方法全面解决了程序合成的规划、编码和调试阶段。正如人类通过视觉模拟验证他们对任何算法的理解一样,CodeSim独特地具有一种通过逐步模拟输入/输出的计划验证和内部调试方法。在七个具有挑战性的竞争性问题解决和程序合成基准测试中进行的大量实验表明了CodeSim卓越的代码生成能力。我们的框架取得了新的最先进(一次通过)结果(HumanEval 95.1%,MBPP 90.7%,APPS 22%和CodeContests 29.1%)。此外,我们的方法显示出与外部调试器级联时进一步增强的潜力。为了促进这一领域的进一步研究和发展,我们已在以下链接(https://kagnlp.github.io/codesim.github.io/)上开源了我们的框架。
近年来,建立统一的多模态理解和生成模型引起了越来越多的研究兴趣,其中Show-o作为一个显著代表,展现出在文本到图像和图像到文本生成方面具有巨大潜力。Show-o的推断包括逐步去噪图像标记和自回归解码文本标记,因此,不幸的是,它在两方面都存在效率问题。本文介绍了Show-o Turbo来弥合这一差距。我们首先基于文本标记的并行解码,确定了Show-o中图像和文本生成的统一去噪视角。然后,我们提出将一种用于缩短扩散模型去噪过程的合格方法——一致性蒸馏(CD),扩展到Show-o的多模态去噪轨迹。我们引入了一种轨迹分割策略和课程学习程序来提高训练收敛性。从经验上看,在文本到图像生成中,Show-o Turbo在4个采样步骤下展示了0.625的GenEval分数,而无需使用无分类器指导(CFG),优于原始的具有8个步骤和CFG的Show-o;在图像到文本生成中,Show-o Turbo表现出1.5倍的加速,而不会显著牺牲性能。代码可在https://github.com/zhijie-group/Show-o-Turbo找到。
我们提出,通过扩展思维模板的分层LLM推理能够有效优化推理搜索空间,并且胜过OpenAI o1-preview和DeepSeek V3等强大LLM的数学推理能力。我们用仅8个GPU训练了我们的ReasonFlux-32B模型,并引入了三项创新:(i) 一个结构化且通用的思维模板库,包含约500个高级思维模板,能够泛化到类似或相关的推理问题;(ii) 在一系列思维模板上执行分层强化学习,而不是在长CoTs上进行,优化基础LLM以规划出逐渐处理复杂问题的最佳模板轨迹;(iii) 一种全新的推理扩展系统,通过在推理时自适应扩展思维模板,实现分层LLM推理。通过包含连续思维模板的模板轨迹,我们的ReasonFlux-32B显著提升了数学推理能力至最先进水平。值得注意的是,在MATH基准测试中,它实现了91.2%的准确率,比o1-preview高出6.7%。在美国数学奥林匹克(AIME)基准测试中,ReasonFlux-32B解决了平均56.7%的问题,分别比o1-preview和DeepSeek-V3高出27%和45%。代码:https://github.com/Gen-Verse/ReasonFlux
在大型语言模型(LLMs)中加速推理对于实时交互至关重要,因为它们已被广泛整合到现实世界的服务中。猜测解码作为一种完全算法化的解决方案,因通过起草和验证标记来提高推理速度而备受关注,从而在单次前向传递中生成多个标记。然而,当前的起草策略通常需要进行大量微调,或者在各种任务中性能不一致。为解决这些挑战,我们提出了层次起草(HD),这是一种基于时间局部性构建多个数据库的层次框架的新型无损起草方法。在起草步骤中,HD按照从最高到最低局部性的顺序顺序访问多个数据库,以确保在各种任务中实现一致的加速,并最小化起草延迟。我们在使用具有7B和13B参数的LLMs的Spec-Bench上进行的实验表明,HD优于现有的数据库起草方法,在模型大小、任务和温度上实现了稳健的推理加速。
大型语言模型(LLM)代理展示了在任务自动化和智能决策方面的显著能力,推动了诸如LangChain和AutoGen等代理开发框架的广泛采用。然而,这些框架主要为具有广泛技术专业知识的开发人员提供服务 - 这是一个重要的限制,考虑到全球人口中仅有0.03%拥有必要的编程技能。这种明显的可访问性差距引发了一个基本问题:我们能否让每个人,无论技术背景如何,仅使用自然语言来构建自己的LLM代理?为了解决这一挑战,我们介绍了MetaChain - 一个完全自动化且高度自我发展的框架,使用户能够仅通过自然语言创建和部署LLM代理。作为一个自主代理操作系统,MetaChain包括四个关键组件:i)代理系统实用程序,ii)LLM驱动的可操作引擎,iii)自管理文件系统和iv)自我玩耍代理定制模块。这个轻量而强大的系统使得工具、代理和工作流的高效动态创建和修改成为可能,无需编码要求或手动干预。除了无代码代理开发能力外,MetaChain还作为通用人工智能助手的多功能代理系统。对GAIA基准测试的全面评估显示MetaChain在通用多代理任务中的有效性,超越了现有的最先进方法。此外,MetaChain的检索增强生成(RAG)相关能力相对于许多其他基于LLM的解决方案表现出持续优越的性能。
最近的进展已经确立了扩散变压器(DiTs)作为生成建模中的主导框架。在此成功基础上,Lumina-Next通过Next-DiT在生成逼真图像方面取得了卓越表现。然而,其在视频生成方面的潜力仍然未被充分挖掘,面临着对视频数据固有的时空复杂性进行建模的重大挑战。为了解决这一问题,我们引入了Lumina-Video,这是一个利用Next-DiT的优势并为视频合成引入量身定制解决方案的框架。Lumina-Video采用了多尺度Next-DiT架构,共同学习多个patchifications以增强效率和灵活性。通过将运动评分作为显式条件,Lumina-Video还能够直接控制生成视频的动态程度。结合渐进式训练方案,逐渐提高分辨率和帧率,并采用混合自然和合成数据的多源训练方案,Lumina-Video在高训练和推断效率下实现了出色的美学质量和动作平滑度。此外,我们还提出了基于Next-DiT的视频到音频模型Lumina-V2A,为生成的视频创建同步音频。代码已发布在https://www.github.com/Alpha-VLLM/Lumina-Video。
现有的无编码器视觉-语言模型(VLMs)正在迅速缩小与基于编码器的对应模型之间的性能差距,突显了统一多模态系统具有结构简单性和高效部署潜力的前景。我们系统地澄清了使用预训练视觉编码器、离散分词器和从头开始的极简视觉层的VLMs之间的性能差距,深入挖掘了未经审查的无编码器VLMs的特征。我们开发了一种有效的策略,使无编码器VLMs能够与主流基于编码器的模型匹敌。经过深入调查,我们推出了EVEv2.0,这是一组新的改进的无编码器VLMs。我们表明:(i)在统一模型内适当分解和分层关联视觉和语言可以减少模态之间的干扰。(ii)良好设计的训练策略可以实现对无编码器VLMs的有效优化。通过广泛评估,我们的EVEv2.0代表了一个全面研究,用于开发跨模态的仅解码器架构,展示了卓越的数据效率和强大的视觉推理能力。代码公开可在以下链接获取:https://github.com/baaivision/EVE。
无分类器引导(CFG)是改进扩散模型中条件生成的关键技术,可实现更精确的控制并提高样本质量。将这一技术扩展到视频扩散是很自然的,视频扩散生成的视频取决于可变数量的上下文帧,统称为历史。然而,我们发现在使用可变长度历史进行引导时存在两个关键挑战:仅支持固定大小调节的架构,以及CFG风格历史丢弃的实证观察表现不佳。为了解决这个问题,我们提出了扩散强制变换器(DFoT),这是一个视频扩散架构和理论上基础的训练目标,共同实现对灵活数量历史帧的调节。然后,我们介绍了历史引导,这是一系列由DFoT独特实现的引导方法。我们展示了其最简单形式,即普通历史引导,已经显著改善了视频生成质量和时间一致性。一种更先进的方法,跨时间和频率的历史引导,进一步增强了运动动态,实现了对超出分布历史的组成泛化,并能够稳定地展示极长的视频。网站:https://boyuan.space/history-guidance
大型视觉语言模型(LVLMs)能够有效地处理文本和视觉输入,但往往会产生在语法上连贯但在视觉上没有依据的内容。本文通过研究内部幻觉动态,通过检查生成过程中的标记logits排名,揭示了LVLMs处理信息的三个关键模式:(1)逐渐丢失视觉信息--在生成过程中,具有视觉依据的标记逐渐变得不受青睐;(2)早期激发--语义上有意义的标记在较早的层中达到峰值激活,早于最终层;(3)隐藏的真实信息--具有视觉依据的标记虽然最终未被确定,但在推理过程中仍保持相对较高的排名。基于这些见解,我们提出了VISTA(具有标记-对数增强的视觉信息引导),这是一个无需训练的推理时干预框架,可以减少幻觉,同时促进真实信息。VISTA通过结合两种互补方法实现:在激活空间中加强视觉信息,利用早期层激活来促进语义上有意义的解码。与现有方法相比,VISTA无需外部监督,并适用于各种解码策略。大量实验证明,在评估的开放式生成任务中,VISTA平均减少了约40%的幻觉,并且在三种解码策略下的四个架构上的四个基准测试中,始终优于现有方法。
定制生成在图像合成方面取得了显著进展,然而由于时间不一致性和质量降低,个性化视频生成仍然具有挑战性。本文介绍了CustomVideoX,这是一种创新框架,利用视频扩散变换器从参考图像生成个性化视频。CustomVideoX利用预训练视频网络,通过专门训练LoRA参数来提取参考特征,确保效率和适应性。为了促进参考图像与视频内容之间的无缝交互,我们提出了3D参考注意力,实现了参考图像特征与所有视频帧在空间和时间维度上的直接和同时交互。为了在推理过程中减轻参考图像特征和文本指导对生成视频内容的过度影响,我们实施了时间感知参考注意力偏置(TAB)策略,动态调节不同时间步长上的参考偏置。此外,我们引入了实体区域感知增强(ERAE)模块,通过调整注意力偏置,将关键实体标记的高度激活区域与参考特征注入对齐。为了全面评估个性化视频生成,我们建立了一个新的基准VideoBench,包括50多个对象和100个提示,用于广泛评估。实验结果表明,CustomVideoX在视频一致性和质量方面明显优于现有方法。
尽管承诺合成高保真视频的Diffusion Transformers (DiTs) 具有3D全注意力,但由于注意力计算的复杂性和大量采样步骤,推断代价昂贵。例如,流行的Open-Sora-Plan模型生成29帧视频需要超过9分钟。本文从两个方面解决了低效率问题:1) 基于视频数据内部冗余修剪3D全注意力;我们在视频数据的3D注意力图中识别到一种普遍的瓷砖式重复模式,并提倡一种新的稀疏3D注意力家族,其复杂度与视频帧数成线性关系。2) 通过采用现有的多步一致性蒸馏缩短采样过程;我们将整个采样轨迹分成几个段,并在每个段内执行一致性蒸馏,以激活少步生成能力。我们进一步设计了一个三阶段训练流程,将低复杂度注意力和少步生成能力结合起来。值得注意的是,我们通过使用0.1%的预训练数据,将Open-Sora-Plan-1.2模型转变为一个高效模型,对于生成29和93帧720p视频,速度提高了7.4倍至7.8倍,性能上略有牺牲。此外,我们证明我们的方法适用于分布式推断,在4个GPU上运行时,通过序列并行性获得额外的3.91倍加速。
训练网络导航代理的主要方法是收集一系列热门网站和手写任务的人类演示,但明显地人类数据是一种低效的资源。我们开发了一个流水线,以促进代理的互联网规模训练,无需费力的人类注释。在第一阶段,一个LLM为150k个不同的网站生成任务。接下来,LLM代理完成任务并生成轨迹。最后,一个LLM审查轨迹并评判其成功。语言模型与人类注释者相媲美,以97%的准确率检测和过滤有害内容,以89%的速率生成可行任务,并以82.6%的准确率判断成功的轨迹。通过扩展流水线,基于Llama 3.1 70B的代理解决了150k个网站的16.7%的任务。在我们的流水线生成的数据上进行训练与在人类演示上进行训练具有竞争力。在来自Mind2Web和WebLINX的数据有限的情况下,我们将代理在混合我们流水线数据和人类数据上训练时的步骤准确率分别提高了高达+89.5%和+122.1%。当使用来自这些基准测试的所有可用人类数据训练代理时,代理无法推广到不同的真实网站,而添加我们的数据使其在WebLINX上的泛化能力提高了+149.0%,在Mind2Web上提高了+156.3%。代码将在以下网址提供:data-for-agents.github.io。
最近针对大型语言模型(LLMs)开发的人类偏好优化最新进展显示出在改进文本到图像扩散模型方面具有显著潜力。这些方法旨在学习首选样本的分布,同时区分它们与较不受欢迎的样本。然而,现有的偏好数据集通常在这些分布之间存在重叠,导致冲突分布。此外,我们发现输入提示对于较不受欢迎的图像包含了无关信息,限制了去噪网络准确预测偏好优化方法中的噪声的能力,这被称为无关提示问题。为了解决这些挑战,我们提出了双标题偏好优化(DCPO),这是一种利用两个不同标题来减轻无关提示的新方法。为了解决冲突分布问题,我们引入了Pick-Double Caption数据集,这是Pick-a-Pic v2的修改版本,为首选和较不受欢迎的图像提供单独的标题。我们进一步提出了三种不同的生成不同标题的策略:标题生成、扰动和混合方法。我们的实验表明,DCPO显著提高了图像质量和与提示的相关性,优于多个指标,包括Pickscore、HPSv2.1、GenEval、CLIPscore和ImageReward,在以SD 2.1为骨干的基础上进行了微调的Stable Diffusion(SD)2.1、SFT_Chosen、Diffusion-DPO和MaPO。
文本到3D生成自动化地从文本描述中创建3D内容,这在各个领域具有变革性潜力。然而,现有方法常常难以与人类偏好对齐,从而限制了它们的适用性和灵活性。为了解决这些限制,在本文中,我们提出了DreamDPO,这是一个基于优化的框架,将人类偏好整合到3D生成过程中,通过直接偏好优化。在实践中,DreamDPO首先构建成对示例,然后使用奖励或大型多模态模型比较它们与人类偏好的对齐情况,最后通过偏好驱动的损失函数优化3D表示。通过利用成对比较来反映偏好,DreamDPO减少了对精确点对点质量评估的依赖,同时通过偏好引导的优化实现了细粒度可控性。实验证明,DreamDPO取得了竞争性的结果,与现有方法相比提供了更高质量和更可控的3D内容。代码和模型将开源。
上下文增强生成(CAG)技术,包括RAG和ICL,需要有效地组合多个上下文以生成对用户查询的响应。直接将这些上下文作为序列输入会引入相当大的计算负担,因为需要为每个请求重新对组合选择的上下文进行重新编码。为了解决这个问题,我们探讨了并行编码的潜在优势,即独立预先计算和缓存每个上下文的KV状态。这种方法使得在推断过程中可以直接加载缓存状态,同时通过在不同上下文之间重复使用位置来容纳更多的上下文。然而,由于注意力分布的不对齐,直接应用并行编码会导致性能显著下降。为了实现有效和高效的CAG,我们提出了自适应并行编码(APE),它引入了共享前缀、注意力温度和缩放因子,以使并行编码的分布与顺序编码对齐。在RAG和ICL任务上的结果表明,APE可以保持98%和93%的顺序编码性能,同时分别比并行编码高出3.6%和7.9%。它还可以扩展到多样本CAG,有效地并行编码数百个上下文。效率评估显示,APE可以通过减少128K长度上下文的28倍预填充时间,实现端到端4.5倍的加速。
Steel-LLM是一个以中文为中心的语言模型,从零开始开发,旨在在计算资源有限的情况下创建一个高质量的开源模型。该项目于2024年3月启动,旨在在大规模数据集上训练一个10亿参数的模型,优先考虑透明度和分享实用见解,以帮助社区中的其他人。训练过程主要关注中文数据,包括少量英文数据,填补了现有开源LLM的空白,提供了更详细和实用的模型构建过程描述。Steel-LLM在CEVAL和CMMLU等基准测试中表现出色,胜过了来自大型机构的早期模型。本文全面总结了该项目的关键贡献,包括数据收集、模型设计、训练方法以及沿途遇到的挑战,为希望开发自己的LLM的研究人员和从业者提供了宝贵资源。模型检查点和训练脚本可在https://github.com/zhanshijinwat/Steel-LLM 上找到。
推测解码(SD)通过使用较小的草稿模型来预测多个标记,然后由较大的目标模型并行验证,从而加速大型语言模型推断。然而,草稿模型的有限容量通常需要基于树的采样来提高预测准确性,在每个步骤生成多个候选项。我们确定了这种方法的一个关键局限性:同一步骤的候选项来源于相同的表示,限制了多样性并降低了整体有效性。为了解决这个问题,我们提出了Jakiro,利用专家混合(MoE),其中独立的专家生成多样化的预测,有效地解耦了候选项之间的相关性。此外,我们引入了混合推断策略,将自回归解码用于初始标记,将并行解码用于后续阶段,并通过特征中的对比机制增强后者以提高准确性。我们的方法显著提高了预测准确性,并实现了更高的推断加速。对各种模型进行的大量实验验证了我们方法的有效性和稳健性,在推测解码领域建立了新的技术水平。我们的代码可在 https://github.com/haiduo/Jakiro 上找到。
语言条件的机器人模型有潜力使机器人能够根据自然语言指令执行各种任务。然而,评估它们的安全性和有效性仍然具有挑战性,因为很难测试单个任务可以被表达的所有不同方式。当前的基准测试存在两个关键限制:它们依赖于有限的人类生成的指令集,错过了许多具有挑战性的情况,并且仅关注任务性能,而不评估安全性,比如避免损坏。为了解决这些缺陷,我们引入了具有具体背景的红队行动(ERT),这是一种新的评估方法,用于生成多样化和具有挑战性的指令以测试这些模型。ERT利用自动化的红队技术与视觉语言模型(VLMs)结合,创建具有上下文背景的困难指令。实验结果显示,最先进的语言条件机器人模型在ERT生成的指令上失败或表现不安全,突显了当前基准测试在评估实际性能和安全性方面的缺陷。代码和视频可在以下网址找到:https://s-karnik.github.io/embodied-red-team-project-page。
为了开发大型语言模型的强大安全基准,需要开放、可复现的数据集,可以衡量对有害内容的适当拒绝以及对合法科学讨论的潜在过度限制。我们提出了一个开源数据集和测试框架,用于评估主要受控物质查询中的LLM安全机制,分析四个主要模型对系统变化提示的响应。我们的结果显示出不同的安全配置文件:Claude-3.5-sonnet表现出最保守的方法,拒绝率为73%,允许率为27%,而Mistral试图回答100%的查询。GPT-3.5-turbo显示出适度的限制,拒绝率为10%,允许率为90%,而Grok-2注册了20%的拒绝率和80%的允许率。测试提示变化策略显示,从单提示的85%到五种变化的65%,响应一致性逐渐降低。这个公开可用的基准使得对必要安全限制和潜在过度审查合法科学探究之间的关键平衡进行系统评估,同时为衡量AI安全实施进展奠定了基础。思维链分析揭示了安全机制的潜在漏洞,突显了在不过度限制理想和有效的科学讨论的情况下实施强大保障的复杂性。