每日精选AI研究论文及翻译
在本研究中,我们提出了强化预训练(Reinforcement Pre-Training, RPT)作为一种面向大规模语言模型与强化学习(RL)的新型扩展范式。具体而言,我们将下一词预测重新定义为一项通过RL训练的逻辑推理任务,模型在给定上下文中正确预测下一词时获得可验证的奖励。RPT提供了一种可扩展的方法,利用海量文本数据进行通用目的强化学习,而非依赖特定领域的标注答案。通过激励下一词推理能力,RPT显著提升了语言模型在预测下一词时的准确性。此外,RPT为后续的强化微调奠定了强大的预训练基础。扩展曲线表明,增加训练计算资源持续提升了下一词预测的准确度。这些结果确立了RPT作为一种有效且前景广阔的扩展范式,推动了语言模型预训练的发展。
多模态大语言模型(MLLMs)在理解常见视觉元素方面展现了卓越的能力,这主要得益于其大规模数据集和先进的训练策略。然而,在医疗应用领域,由于医疗场景与通用领域在数据和任务上存在固有差异,这些模型的效果仍显不足。具体而言,现有的医疗MLLMs面临以下关键局限:(1)医疗知识覆盖范围有限,主要局限于影像领域;(2)由于数据筛选过程欠佳,更容易产生幻觉;(3)缺乏针对复杂医疗场景的定制化推理能力。为应对这些挑战,我们首先提出了一套全面的数据筛选流程,该流程(1)不仅从医学影像中高效获取丰富的医疗知识数据,还广泛涵盖医学文本及通用领域数据;(2)合成精确的医学描述、视觉问答(VQA)及推理样本。由此,我们构建了一个富含广泛医疗知识的多模态数据集。基于此筛选数据,我们推出了专为医疗设计的MLLM——灵枢。灵枢通过多阶段训练,逐步嵌入医疗专业知识并提升其任务解决能力。此外,我们初步探索了应用可验证奖励机制的强化学习,以增强灵枢的医疗推理能力。同时,我们开发了MedEvalKit,一个统一评估框架,整合了领先的多模态及文本医疗基准,以实现标准化、公平且高效的模型评估。我们在三项基础医疗任务——多模态问答、基于文本的问答及医疗报告生成上对灵枢进行了性能评估。结果显示,灵枢在多数任务上持续超越现有的开源多模态模型……
本文介绍了MiniCPM4,一款专为终端设备设计的高效大型语言模型(LLM)。我们通过模型架构、训练数据、训练算法及推理系统四个关键维度的系统性创新实现了这一高效性。具体而言,在模型架构方面,我们提出了InfLLM v2,一种可训练的稀疏注意力机制,加速了长上下文处理中的预填充和解码阶段。在训练数据方面,我们提出了UltraClean,一种高效且准确的预训练数据过滤与生成策略,以及UltraChat v2,一个全面的监督微调数据集,这些数据集使得仅需8万亿训练标记即可达到满意的模型性能。在训练算法上,我们提出了ModelTunnel v2用于高效预训练策略搜索,并通过引入分块式rollout实现负载均衡的强化学习及数据高效的三元LLM——BitCPM,改进了现有的后训练方法。在推理系统方面,我们提出了CPM.cu,它集成了稀疏注意力、模型量化和推测采样,以实现高效的预填充和解码。为满足多样化的设备端需求,MiniCPM4提供0.5B和8B参数两个版本。充分的评估结果显示,MiniCPM4在多个基准测试中均优于同规模的开源模型,凸显了其效率与效能。值得注意的是,在处理长序列时,MiniCPM4-8B相比Qwen3-8B展现出显著的加速效果。通过进一步适配,MiniCPM4成功赋能了包括可信调查生成及模型上下文协议下的工具使用在内的多样化应用,清晰展现了其广泛的适用性。
现有安全保证研究主要集中于训练阶段的对齐,旨在将安全行为植入大语言模型(LLMs)。然而,近期研究揭示了这些方法在面对多样化越狱攻击时的脆弱性。与此同时,推理扩展技术显著提升了LLM的推理能力,但在安全保证领域的应用仍属空白。针对这一缺口,我们的工作开创性地将推理扩展应用于增强LLM对新兴威胁的鲁棒性和有效性安全防护。我们发现,尽管传统推理扩展技术在推理任务中表现出色,但在安全场景下表现欠佳,甚至不及基础方法如最佳N采样(Best-of-N Sampling)。我们将这种低效归因于一个新发现的挑战——探索效率困境,该困境源于频繁进行过程奖励模型(PRM)评估所带来的高计算开销。为解决这一困境,我们提出了SAFFRON,一种专为安全保证设计的新型推理扩展范式。该范式的核心在于引入多分支奖励模型(MRM),大幅减少了所需的奖励模型评估次数。为实施这一范式,我们进一步提出:(i) MRM的部分监督训练目标,(ii) 保守探索约束以防止分布外探索,以及(iii) 基于Trie的键值缓存策略,促进树搜索过程中跨序列的缓存共享。大量实验验证了我们方法的有效性。此外,我们公开了训练好的多分支奖励模型(Saffron-1)及配套的令牌级安全奖励数据集(Safety4M),以加速LLM安全领域的未来研究。我们的代码、模型和数据均公开于https://github.com/q-rz/saffron,项目主页位于https://q-rz.github.io/p/saffron。
文本到图像(T2I)模型因能生成与文本提示高度契合的高质量图像而备受瞩目。然而,随着T2I模型的快速发展,早期基准测试的局限性逐渐显现,这些测试在诸如推理能力、文本渲染及风格等关键维度上缺乏全面评估。值得注意的是,凭借其强大的知识建模能力,当前最先进的模型在需要强推理能力的图像生成任务上展现出令人瞩目的成果,但现有的评估体系尚未充分触及这一前沿领域。为系统性地填补这些空白,我们推出了OneIG-Bench,这是一个精心设计的综合性基准框架,旨在从多维度对T2I模型进行细粒度评估,包括提示-图像对齐度、文本渲染精度、推理生成内容、风格化处理及多样性等方面。通过结构化评估,该基准能够深入分析模型性能,助力研究人员与实践者精准定位图像生成全流程中的优势与瓶颈。特别地,OneIG-Bench支持灵活评估,允许用户聚焦于特定评估子集。用户无需为所有提示生成图像,而仅需针对选定维度相关的提示生成图像,并据此完成相应评估。我们的代码库与数据集现已公开,旨在促进T2I研究社区内的可复现性评估研究与跨模型比较。
SpatialLM 是一款专为处理三维点云数据并生成结构化三维场景理解输出而设计的大型语言模型。这些输出包括墙体、门、窗等建筑元素,以及带有语义类别的定向物体框。与以往依赖特定任务网络设计的方法不同,我们的模型遵循标准的多模态LLM架构,并直接从开源LLM进行微调。 为训练SpatialLM,我们收集了一个大规模、高质量的合成数据集,包含12,328个室内场景(54,778个房间)的点云及其对应的三维标注真值,并对多种建模和训练决策进行了细致研究。在公开基准测试中,我们的模型在布局估计任务上达到了最先进的性能,在三维物体检测方面也取得了具有竞争力的结果。由此,我们展示了一条可行的路径,即通过增强现代LLM的空间理解能力,以应用于增强现实、具身机器人等领域。
在现代应用中,视觉编码器正被广泛采用,从纯视觉模型到视觉-语言模型等多模态系统。尽管这些架构取得了显著成功,但其内部如何表示特征仍不明确。本文提出了一种通过图像重建来解读视觉特征的新方法。我们比较了两个相关模型家族——SigLIP和SigLIP2,它们仅在训练目标上有所不同,结果表明,基于图像任务预训练的编码器比通过对比学习等非图像任务训练的编码器保留了更多的图像信息。我们进一步将该方法应用于一系列视觉编码器,根据其特征表示的信息量对其进行排序。最后,我们证明了对特征空间进行操作会在重建图像中产生可预测的变化,揭示了正交旋转(而非空间变换)控制着色彩编码。我们的方法可应用于任何视觉编码器,为其特征空间的内部结构提供洞见。实验复现代码及模型权重已在GitHub上公开。
现代机器人导航系统在多样且复杂的室内环境中面临诸多挑战。传统方法依赖于多个小型模型或基于规则的模块,因而缺乏对新环境的适应能力。为解决这一问题,我们开发了Astra,一种全面的双模型架构,包括Astra-Global和Astra-Local,专为移动机器人导航设计。Astra-Global作为一种多模态大语言模型,处理视觉与语言输入,利用混合拓扑语义图作为全局地图进行自我定位与目标定位,其性能超越传统的视觉地点识别方法。Astra-Local则是一个多任务网络,负责局部路径规划与里程计估计。其通过自监督学习训练的4D时空编码器,为下游任务生成稳健的4D特征。规划模块采用流匹配技术和新颖的掩码ESDF损失函数,以最小化碰撞风险,生成局部轨迹;而里程计模块则通过Transformer编码器整合多传感器输入,预测机器人的相对姿态。在实际部署于室内移动机器人上时,Astra在多种室内环境中实现了高端的端到端任务成功率。
隐马尔可夫模型(HMMs)是处理具有潜在马尔可夫结构序列数据的基础工具,然而将其应用于现实世界数据仍面临计算上的挑战。本研究中,我们展示了预训练的大型语言模型(LLMs)能够通过上下文学习(ICL)——即从提示中的示例推断模式的能力——有效建模由HMMs生成的数据。在一系列多样化的合成HMMs上,LLMs的预测准确率接近理论最优。我们揭示了受HMM特性影响的新颖扩展趋势,并为这些实证观察提供了理论推测。此外,我们还为科研人员提供了使用ICL作为复杂数据诊断工具的实用指南。在现实世界的动物决策任务中,ICL的表现与人类专家设计的模型相当。据我们所知,这是首次证明ICL能够学习并预测HMM生成的序列——这一进展深化了我们对LLMs中上下文学习的理解,并确立了其作为揭示复杂科学数据中隐藏结构的强大工具的潜力。
多模态扩散变换器(MM-DiTs)在文本驱动的视觉生成领域取得了显著进展。然而,即便是如FLUX这样的顶尖MM-DiT模型,在实现文本提示与生成内容之间的精确对齐方面仍面临挑战。我们识别出MM-DiT注意力机制中的两个关键问题:一是由于视觉与文本模态间令牌不平衡导致的跨模态注意力抑制;二是缺乏时间步感知的注意力权重分配,这两者均阻碍了对齐效果。为解决这些问题,我们提出了温度调节跨模态注意力(TACA),这是一种参数高效的方法,通过温度缩放和时间步依赖的调整,动态地重新平衡多模态交互。结合LoRA微调,TACA在T2I-CompBench基准测试中显著提升了文本-图像对齐效果,且计算开销极小。我们在FLUX和SD3.5等先进模型上测试了TACA,证明了其在改善图像-文本对齐方面,特别是在物体外观、属性绑定及空间关系上的能力。我们的研究结果强调了平衡跨模态注意力在提升文本到图像扩散模型语义保真度中的重要性。相关代码已公开于https://github.com/Vchitect/TACA。
视觉-语言-动作(VLA)模型在广泛的机器人操作任务中展现了卓越的能力。然而,其日益增大的模型规模对资源受限的机器人系统部署构成了显著挑战。尽管1比特预训练已被证明能有效提升大型语言模型的推理效率且性能损失最小,但其在VLA模型中的应用仍待深入探索。本研究提出了BitVLA,首个专为机器人操作设计的1比特VLA模型,其中每个参数均为三元值,即{-1, 0, 1}。为了进一步缩减视觉编码器的内存占用,我们引入了蒸馏感知训练策略,将全精度编码器压缩至1.58比特权重。在此过程中,全精度编码器作为教师模型,以更好地对齐潜在表示。尽管缺乏大规模机器人预训练,BitVLA在LIBERO基准测试中与采用4比特后训练量化的顶尖模型OpenVLA-OFT表现相当,同时仅消耗29.8%的内存。这些成果凸显了BitVLA在内存受限的边缘设备上部署的潜力。我们已在https://github.com/ustcwhy/BitVLA发布了代码与模型权重。
长链思维(CoT)监督已成为增强语言模型推理能力的常见策略。尽管这种方法对大型模型有效,但我们发现了一种称为“长链思维退化”的现象,即在有限的长链思维数据上训练的小型语言模型(SLMs;参数≤3B)会经历显著的性能下降。通过对Qwen2.5、LLaMA3和Gemma3系列模型的大量实验,我们证明了这种退化在SLMs中普遍存在。在某些情况下,仅用8k个长链思维示例训练的模型会损失高达75%的微调前性能。更为引人注目的是,我们进一步观察到,对于一些特别小的模型,即使使用220k个长链思维示例进行训练,也无法恢复或超越其微调前的原始性能。我们的分析将这一效应归因于错误累积:虽然更长的响应增加了多步推理的能力,但也放大了错误叠加的风险。此外,我们发现长链思维退化可能对下游强化学习(RL)产生负面影响,尽管通过足够规模的监督微调(SFT)可以缓解这一问题。我们的研究结果挑战了关于长链思维训练对SLMs益处的常见假设,并为构建更有效的小规模推理模型提供了实用指导。
我们深入研究了视觉Transformer中先前发现的一种现象——高范数(high-norm)令牌的出现导致注意力图谱噪声化的内在机制。通过观察多个模型(如CLIP、DINOv2),我们发现,一组稀疏的神经元负责将高范数激活集中在异常令牌上,从而引发不规则的注意力模式,并削弱下游视觉处理性能。尽管现有解决方案需通过重新训练模型并引入额外的学习寄存器令牌来消除这些异常值,但基于我们的发现,我们提出了一种无需重新训练的方法来缓解这些伪影。通过将我们发现的寄存器神经元中的高范数激活转移到一个未经训练的额外令牌上,我们能够模拟寄存器令牌在未预先配置寄存器令牌的模型上的效果。实验证明,我们的方法能生成更清晰的注意力和特征图谱,在多种下游视觉任务中提升基础模型的性能,并取得与显式训练寄存器令牌模型相当的结果。进一步,我们将测试时寄存器扩展至现成的视觉-语言模型,以增强其可解释性。研究结果表明,测试时寄存器有效地承担了测试阶段寄存器令牌的角色,为任何未预先配备寄存器令牌的预训练模型提供了一种无需重新训练的解决方案。
我们提出辩论演讲评估作为一项新颖且富有挑战性的基准,用于测试大型语言模型(LLM)作为评判者的能力。评估辩论演讲需深入理解演讲的多个层面,包括论点的力度与相关性、演讲的连贯性与组织结构、风格与语调的适宜性等。这一任务涉及一系列独特的认知能力,这些能力在以往的系统性LLM基准测试中较少受到关注。为探究此类技能,我们利用了一个包含600多篇精细标注的辩论演讲数据集,并首次深入分析了顶尖LLM在此任务上与人类评判者的对比情况。我们的研究揭示了一个细致入微的图景:尽管更大规模的模型在某些方面能近似于个别人类评判,但它们在整体评判行为上存在显著差异。此外,我们还探讨了前沿LLM生成具有说服力、观点鲜明的演讲的能力,表明模型在此任务上可能达到人类水平。
在多模态大语言模型(MLLMs)中开发可泛化的推理能力仍具挑战性。受认知科学文献启发,游戏玩法有助于培养可迁移的认知技能,我们提出了一种新颖的后训练范式——视觉游戏学习(ViGaL),通过让MLLMs玩街机类游戏,实现跨领域的多模态推理泛化。具体而言,我们展示了对一个拥有70亿参数的MLLM,在简单街机游戏(如贪吃蛇)上通过强化学习(RL)进行后训练,显著提升了其在多模态数学基准(如MathVista)及跨学科问题(如MMMU)上的下游表现,且在整个RL过程中未接触任何解题步骤、方程或图表,这表明模型掌握了可迁移的推理技能。值得注意的是,我们的模型在多模态推理基准测试中超越了专门针对多模态推理数据调优的专家模型,同时保持了基础模型在通用视觉基准上的性能,这是专家模型常面临的难题。我们的研究揭示了一种新的后训练范式:基于规则的人工合成游戏可作为可控且可扩展的预训练任务,激发MLLMs中可泛化的多模态推理能力。
光学化学结构识别(OCSR)对于将化学知识数字化,即将分子图像转换为机器可读格式至关重要。尽管近期的视觉-语言模型(VLMs)在此任务中展现出潜力,但其基于图像描述的方法在处理复杂分子结构及不一致注释时往往力不从心。为克服这些挑战,我们提出了GTR-Mol-VLM,一个创新框架,具备两大关键特性:(1) 图遍历作为视觉思维链机制,通过逐步预测原子与键来模拟人类解析分子图的过程;(2) 数据为中心的原则——“忠实识别所见”,旨在解决图像中简化结构与扩展注释之间的不匹配问题。为支持模型开发,我们构建了GTR-CoT-1.3M,一个大规模指令调优数据集,其注释经过精心校正,并推出了MolRec-Bench,首个专为OCSR中图解析精度细粒度评估设计的基准。全面实验表明,GTR-Mol-VLM在对比专业模型、化学领域VLMs及商用通用VLMs时均取得了更优成绩。特别是在涉及含功能团缩写分子图像的场景下,GTR-Mol-VLM在基于SMILES和基于图的指标上均领先次优基线约14个百分点。我们期望这项工作能推动OCSR技术更有效地满足实际需求,从而促进化学信息学及科学人工智能领域的发展。GTR-CoT数据集将在https://github.com/opendatalab/GTR-CoT 发布。
近几代语言模型引入了大型推理模型(LRMs),这些模型在提供答案之前会生成详细的思考过程。尽管这些模型在推理基准测试中表现出性能提升,但其基本能力、扩展特性及局限性仍未被充分理解。当前的评估主要集中于既有的数学和编程基准,强调最终答案的准确性。然而,这种评估模式常受污染影响,且未能深入洞察推理轨迹。在本研究中,我们借助可控的谜题环境系统性地探讨了这些不足,这些环境允许精确操控复杂度,同时保持一致的逻辑结构。这一设置不仅能够分析最终答案,还能剖析内部推理轨迹,从而揭示LRMs的思考方式。通过大量实验,我们发现LRMs在超过一定复杂度后会出现准确性的全面崩溃。此外,它们展现了一种反直觉的扩展极限:随着问题复杂度的增加,其推理努力先增后减,尽管仍有剩余的token预算。通过在同一推理计算条件下比较LRMs与标准LLM,我们识别出三种性能区域:(1) 低复杂度任务中,标准模型优于LRMs;(2) 中等复杂度任务中,LRMs显示出优势;(3) 高复杂度任务中,两种模型均面临全面崩溃。我们发现LRMs在精确计算方面存在局限:它们无法运用明确算法,且在不同规模上推理不一致。我们还更深入地研究了推理轨迹,分析了模型探索解决方案的模式及其计算行为,从而揭示了它们的优势与局限,并对其推理能力提出了疑问。
视觉-语言基础模型在多大程度上具备真实的世界模型(观察 × 动作 → 观察)和动态模型(观察 × 观察 → 动作),尤其是在动作通过语言表达时?尽管开源基础模型在这两方面都存在困难,但我们发现,通过监督微调使其获得动态模型要比获得世界模型容易得多。反过来,动态模型可以通过两种主要策略来引导世界模型的构建:1)从合成数据中进行弱监督学习;2)推理时验证。首先,动态模型可以为未标记的视频帧观察对标注动作,从而扩展训练数据。我们进一步提出了一种新的目标函数,其中观察对中的图像标记根据识别模型预测的重要性进行加权。其次,动态模型可以为世界模型的多个样本分配奖励以进行评分,从而在推理时有效指导搜索。我们通过在Aurora-Bench上的动作中心图像编辑任务来评估这两种策略产生的世界模型。我们的最佳模型在性能上与最先进的图像编辑模型相当,根据GPT4o作为评判标准,在真实世界子集上提升了15%,并在Aurora-Bench的所有子集上获得了最佳的人类评价平均分。
我们能否教会大型语言模型(LLMs)避免虚构事实陈述?本文提出了一种名为ConfQA的微调策略,该策略能够将多个事实性基准测试中的虚构率从20-40%降至5%以下。其核心理念简洁明了:当LLM正确回答问题时,模型被训练继续提供答案;反之,则被训练承认“我不确定”。然而,有两个关键因素使得这一训练极为有效。首先,我们引入了“仅在确信时作答”的抑制提示,以此明确引导模型行为,若无此提示,虚构率仍高达15%-25%。其次,我们利用简单的事实陈述,特别是知识图谱中的属性值,帮助LLMs校准置信度,从而实现跨领域和问题类型的稳健泛化。基于这一洞见,我们提出了双神经知识框架,该框架根据ConfQA的置信度,无缝地在内部参数化的神经知识与外部记录的符号知识之间做出选择。此框架不仅有望将准确率提升至95%以上,还能减少超过30%不必要的外部检索。
我们推出CCI4.0,这是一个大规模双语预训练数据集,专为卓越的数据质量和多样化的人类思维推理轨迹而设计。CCI4.0占据约35TB的磁盘空间,包含两个子数据集:CCI4.0-M2-Base和CCI4.0-M2-CoT。CCI4.0-M2-Base整合了5.2TB精心筛选的中文网络语料、来自Nemotron-CC的22.5TB英文子集,以及数学、维基、arXiv和代码等多个领域的多样化资源。尽管这些数据大多源自经过良好处理的数据集,但各领域的质量标准是动态变化的,需要丰富的专家经验和大量人力进行处理。因此,我们提出了一种新颖的流程,主要通过两阶段去重、多分类器质量评分和领域感知的流畅度过滤,基于模型来验证数据质量。我们提取了45亿条CoT(思维链)模板,命名为CCI4.0-M2-CoT。与从更大模型中蒸馏CoT不同,我们提出的分阶段CoT提取展示了多样化的推理模式,并显著降低了幻觉的可能性。实证评估表明,在CCI4.0上预训练的大型语言模型受益于更干净、更可靠的训练信号,在下游任务中,尤其是在数学和代码反思任务中,表现出一致的提升。我们的结果强调了严格的数据筛选和人类思维模板在提升LLM性能中的关键作用,为自动处理预训练语料库提供了一些启示。
本文介绍了ExpertLongBench,这是一个专家级基准测试,包含来自9个领域的11项任务,这些任务反映了真实的专家工作流程和应用场景。除了问答任务外,ExpertLongBench中的应用驱动型任务要求生成超过5,000个标记的长篇输出,并严格遵守特定领域的要求。值得注意的是,ExpertLongBench中的每项任务都包含一个由领域专家设计或验证的评分标准,用以明确任务要求并指导输出评估。此外,我们提出了CLEAR评估框架,该框架支持在我们的基准测试中对长篇模型输出进行准确评估。为了实现细粒度、与专家对齐的评估,CLEAR通过从模型输出和参考文本中提取与任务特定评分标准项对应的信息,生成检查清单。随后,将模型输出的检查清单项与参考输出的相应项进行比较,以评估其正确性,从而实现有依据的评估。我们对11个大型语言模型(LLMs)进行了基准测试,并分析了CLEAR中的组件,结果表明:(1)现有LLMs在专家级任务上仍需显著改进,表现最佳的模型仅达到26.8%的F1分数;(2)模型能够生成与所需方面相对应的内容,但往往不够准确;(3)CLEAR中准确的检查清单提取和比较可以通过开源权重模型实现,从而实现更可扩展和低成本的用途。
模型免疫旨在预先训练那些难以在有害任务上进行微调,同时在其他无害任务上保持其效用的模型。尽管先前的研究已经为文本到图像模型的免疫提供了实证证据,但对于免疫何时可能实现的关键理解以及免疫模型的精确定义仍不明确。在本研究中,我们提出了一个基于Hessian矩阵条件数的框架,用于分析线性模型的免疫情况。基于此框架,我们设计了一种带有正则化项的算法,以控制预训练后所得的条件数。在线性模型和非线性深度网络上的实证结果展示了所提出算法在模型免疫方面的有效性。相关代码可在https://github.com/amberyzheng/model-immunization-cond-num获取。
多模态大语言模型(MLLMs)在革新图形用户界面(GUI)自动化方面展现出巨大潜力。然而,现有的GUI模型主要依赖于从近乎无错误的离线轨迹中学习,因而缺乏反思与错误恢复能力。为弥补这一不足,我们提出了GUI-Reflection框架,该框架创新性地将自我反思与错误纠正能力整合到端到端多模态GUI模型中,通过专门的训练阶段实现:GUI特定预训练、离线监督微调(SFT)及在线反思调优。GUI-Reflection框架实现了自我反思行为的自发生成,其数据生成与学习过程完全自动化,无需任何人工标注。具体而言,1)我们首先设计了可扩展的数据管道,能够从现有成功轨迹中自动构建反思与错误纠正数据。针对现有GUI模型主要关注基础与UI理解能力的情况,我们提出了GUI-Reflection任务套件,专门用于学习与评估反思导向的能力。2)此外,我们构建了一个多样且高效的环境,用于在移动设备上进行GUI模型的在线训练与数据收集。3)我们还提出了一种迭代式在线反思调优算法,利用所构建的环境,使模型能够持续增强其反思与错误纠正能力。本框架赋予GUI代理自我反思与纠正的能力,为打造更稳健、适应性强且智能的GUI自动化铺平道路,所有数据、模型、环境及工具均将公开发布。
大规模视频生成模型能够合成多样且逼真的动态世界视觉内容,但往往缺乏元素级别的可控性,这限制了其在场景编辑和具身AI代理训练中的应用。我们提出了Dreamland,一个结合了基于物理的模拟器的精细控制能力与大规模预训练生成模型的光影真实内容输出的混合世界生成框架。特别地,我们设计了一种分层世界抽象,将像素级和对象级的语义与几何信息编码为中间表示,以此桥接模拟器与生成模型。这一方法增强了可控性,通过早期与现实世界分布的对齐最小化了适应成本,并支持即插即用地使用现有及未来的预训练生成模型。此外,我们构建了D3Sim数据集,以促进混合生成管线的训练与评估。实验表明,Dreamland在图像质量上提升了50.8%,在可控性上增强了17.9%,展现出提升具身代理训练的巨大潜力。代码与数据将公开提供。
大型语言模型(LLMs)需与人类偏好对齐,以避免生成冒犯性、虚假或无意义的内容。近期,低资源对齐方法备受关注,但仍面临获取高质量且对齐内容的挑战。基于解码初期生成对齐响应难度较大的观察,我们提出了一种新颖框架——弱到强解码(WSD),通过小型对齐模型的引导增强基础模型的对齐能力。该框架中,小型模型首先起草良好对齐的开头,随后由大型基础模型在精心设计的自动切换机制控制下完成剩余部分。我们还收集了一个新数据集GenerAlign,用于微调小型Pilot-3B作为草稿模型,有效提升了WSD框架下不同基础模型的性能,超越所有基线方法,同时避免了在下游任务上的性能下降,即所谓的“对齐税”。进一步开展了大量实验,考察不同设置的影响及时间效率,并对WSD的内在机制进行了深入分析。
近期关于大语言模型(LLMs)多元化对齐的呼声,鼓励模型适应多样化的用户偏好。然而,以往关于个性化奖励模型的研究大多依赖于额外的身份信息,如人口统计细节或预设的偏好类别。为此,我们提出了SynthesizeMe方法,通过用户交互诱导合成用户角色,用于个性化奖励建模。SynthesizeMe首先生成并验证解释用户偏好的推理,随后基于该推理诱导出合成用户角色,最后筛选出信息丰富的先验用户交互,为特定用户构建个性化提示。我们证明,使用SynthesizeMe诱导的提示在Chatbot Arena上提升了4.4%的个性化LLM作为评判者的准确性。将SynthesizeMe衍生的提示与奖励模型结合,在PersonalRewardBench上取得了最佳表现:这是一个新策划的用户分层与聊天机器人交互数据集,收集自Chatbot Arena和PRISM的854名用户。
近期,大型语言模型(LLMs)与视觉-语言模型(VLMs)的突破性进展,催生了具备复杂推理能力和多模态工具使用能力的强大自主代理。然而,尽管这些代理的能力日益增强,当前的代理框架仍显脆弱,缺乏确保信息安全流动、可靠性及多代理协调的原则性机制。为此,我们提出了SAFEFLOW,一种构建可信赖LLM/VLM代理的新型协议级框架。SAFEFLOW实施细粒度的信息流控制(IFC),精确追踪代理、工具、用户及环境间交换数据的来源、完整性与保密性。通过限制LLM推理过程以遵循这些安全标签,SAFEFLOW有效防止了不可信或敌对输入污染高完整性决策。为确保多代理并发环境下的鲁棒性,SAFEFLOW引入了事务执行、冲突解决及基于共享状态的安全调度机制,维护了代理间的全局一致性。此外,我们还引入了包括预写日志、回滚和安全缓存等机制,进一步增强了系统对运行时错误及策略违规的抵御能力。为验证性能,我们构建了SAFEFLOWBENCH,一套全面的基准测试套件,旨在评估代理在对抗性、噪声及并发操作条件下的可靠性。大量实验表明,基于SAFEFLOW构建的代理即使在恶劣环境中也能保持卓越的任务执行能力和安全保障,显著超越了现有技术。SAFEFLOW与SAFEFLOWBENCH共同为构建原则性、鲁棒且安全的代理生态系统奠定了基础,推动了可靠自主技术的前沿发展。
大型语言模型在执行任务时,常依赖于上下文输入与参数化知识的结合。然而,这两种知识来源可能产生冲突,尤其是在检索到的文档与模型的参数化知识相矛盾时。我们提出了一种诊断框架,用以系统评估在上下文记忆冲突情境下——即上下文信息与其参数化信念相背离时——大语言模型的行为表现。通过构建能引发此类冲突的诊断数据,我们分析了模型在多种任务类型上的表现。研究发现:(1) 知识冲突对无需利用知识的任务影响甚微;(2) 当上下文与参数化知识一致时,模型表现普遍更优;(3) 即便在指令要求下,模型也无法完全抑制其内部知识;(4) 提供解释冲突的理性依据会增加模型对上下文的依赖。这些发现引发了对基于模型评估有效性的担忧,并强调了在部署大语言模型时考虑知识冲突的必要性。
大型语言模型常被用于基于大规模文本语料(如代码库、法律文档或聊天记录)的查询应答,其方法是将整个语料置于上下文窗口内,并利用上下文学习(ICL)。尽管当前模型支持100K至1M标记的上下文,但这种配置的服务成本高昂,因为键值缓存(KV缓存)的内存消耗随输入长度线性增长。我们探索了一种替代方案:离线训练一个针对每个语料的较小KV缓存。在推理时,我们加载这个经过训练的KV缓存,称之为“卡带”(Cartridge),并解码生成响应。关键在于,训练卡带的成本可以在引用同一语料的所有查询中分摊。然而,我们发现,单纯通过在语料上进行下一标记预测来训练卡带的方法,其效果无法与ICL相媲美。为此,我们提出了“自学”(self-study)这一训练方案,即生成关于语料的合成对话,并以上下文蒸馏为目标训练卡带。我们发现,通过自学训练的卡带能够复制ICL的功能,同时服务成本显著降低。在具有挑战性的长上下文基准测试中,自学训练的卡带在性能上与ICL相当,但内存使用量减少了38.6倍,吞吐量提升了26.4倍。自学还扩展了模型的有效上下文长度(例如,在MTOB上从128k标记扩展至484k标记),并且令人惊讶的是,它使得卡带在推理时无需重新训练即可组合使用。
近期大语言模型(LLMs)的进展使其能够作为自主代理应用于多种任务,然而它们在制定并坚持长期连贯策略方面仍面临挑战。本文探讨了当LLM代理被置于明确挑战其战略规划能力的环境中时,是否能够实现自我提升。通过开源框架Catanatron访问的棋盘游戏《卡坦岛》,我们对一系列基于LLM的代理进行了基准测试,从简单的游戏玩家代理到能够自主重写自身提示及玩家代理代码的系统。我们引入了一种多代理架构,其中专门角色(分析员、研究员、编码员和玩家)协作迭代分析游戏玩法、研究新策略,并修改代理的逻辑或提示。通过将手工制作的代理与完全由LLM进化的代理进行比较,我们评估了这些系统在诊断失败和随时间适应方面的有效性。我们的结果表明,自我进化的代理,尤其是在Claude 3.7和GPT-4o等模型驱动下,通过自主调整策略、向游戏玩家代理传递样本行为,并在多次迭代中展示适应性推理,超越了静态基线。
本研究将单目视频的动态视角合成视为一种无训练环境下的逆问题。通过重新设计预训练视频扩散模型的噪声初始化阶段,我们实现了无需权重更新或辅助模块的高保真动态视角合成。首先,我们识别了由零终端信噪比(SNR)调度引起的确定性反演基本障碍,并通过引入一种称为K阶递归噪声表示的新噪声表示方法解决了这一问题。我们推导了该表示的闭式表达式,实现了VAE编码与DDIM反演潜在变量之间的精确高效对齐。为了合成由相机运动产生的新可见区域,我们提出了随机潜在调制,它在潜在空间上执行可见性感知采样以补全被遮挡区域。综合实验表明,通过噪声初始化阶段的结构化潜在操作,可以有效地实现动态视角合成。
现有的对话式AI代理基准测试模拟的是单一控制环境,其中仅AI代理能够使用工具与世界互动,而用户则作为被动的信息提供者。这与现实场景(如技术支持)有所不同,在这些场景中,用户需要积极参与修改(共享)世界的状态。为了弥补这一差距,我们引入了tau^2-bench,其主要贡献包括: 1) 一个新颖的电信双控制领域,建模为Dec-POMDP(分散式部分可观测马尔可夫决策过程),其中代理和用户均利用工具在共享的动态环境中行动,考验代理的协调与沟通能力, 2) 一个组合式任务生成器,通过编程从原子组件创建多样且可验证的任务,确保领域覆盖与复杂度可控, 3) 一个与环境紧密耦合的可靠用户模拟器,其行为受工具和可观测状态约束,提升了模拟的真实性, 4) 通过多重消融实验对代理性能进行细粒度分析,包括区分推理错误与沟通/协调错误。 特别地,我们的实验表明,当代理从无用户控制转向双控制时,性能显著下降,凸显了引导用户的挑战。总体而言,tau^2-bench为那些必须有效推理并引导用户行动的代理提供了一个可控的测试平台。
当前的多模态大语言模型(MLLMs)在理解长视频或复杂视频时可能面临挑战,这主要源于测试时的高计算需求、缺乏鲁棒性以及准确性有限,这些限制很大程度上归因于其前馈处理机制。对于参数较少的模型,这些限制可能更为严重。为应对这些局限,我们受控制论启发,提出了一种新颖框架,将视频MLLMs重新设计为能在推理过程中自我监控、自我校正并动态分配资源的自适应系统。我们的方法——CyberV,引入了一个由MLLM推理系统、传感器和控制器构成的控制循环。具体而言,传感器监控MLLM的前向过程并收集如注意力漂移等中间解释,随后控制器决定何时及如何触发自我校正,并生成反馈以指导下一轮推理。这一测试时自适应扩展框架无需重新训练或添加额外组件,即可增强冻结的MLLMs。实验显示显著提升:CyberV使Qwen2.5-VL-7B在VideoMMMU上提升了8.3%,InternVL3-8B提升了5.5%,超越了竞争性专有模型GPT-4o。应用于Qwen2.5-VL-72B时,更是带来了10.0%的提升,性能甚至可与人类专家相媲美。此外,我们的方法在通用基准测试如VideoMME和WorldSense上也展现出一致的增益,凸显了其在增强MLLMs对动态视频理解的鲁棒性和准确性方面的有效性及泛化能力。代码已发布于https://github.com/marinero4972/CyberV。
基于专家示范训练的视频生成模型已被用作高性能的文本条件视觉规划器,用于解决机器人任务。然而,泛化至未见过的任务仍是一大挑战。尽管通过利用从额外预收集的离线数据源(如网络规模视频数据集)中习得的先验知识可能促进泛化能力的提升,但在经验时代,我们旨在设计能够通过自我收集行为在线持续改进的智能体。因此,在本研究中,我们提出了自我适应改进循环(SAIL),其中域内视频模型通过自我产生的轨迹迭代更新,这些轨迹是通过与互联网规模预训练视频模型的适应收集而来,并稳步提升其在指定感兴趣任务上的表现。我们将SAIL应用于一系列多样化的MetaWorld任务以及一个真实机器人手臂上的两项操作任务,发现对于最初在域内视频模型训练期间未见的新任务,经过多次迭代后性能持续提升。此外,我们发现SAIL在自我收集经验是否及如何被过滤,以及初始域内示范的质量方面表现出惊人的鲁棒性。通过总结互联网规模数据的适应和在线经验的学习,我们展示了一种通过自我改进迭代引导高性能视频模型解决新颖机器人任务的方法。
尽管视频生成领域近期取得了显著进展,现有模型在细粒度可控性方面仍显不足,尤其是在多主体定制及其身份一致性与交互性方面。本文提出PolyVivid,一个多主体视频定制框架,旨在实现灵活且身份一致的生成。为建立主体图像与文本实体间的精确对应关系,我们设计了一个基于VLLM的文本-图像融合模块,将视觉身份嵌入文本空间以实现精准定位。为进一步增强身份保持与主体交互,我们提出了基于3D-RoPE的增强模块,支持文本与图像嵌入间的结构化双向融合。此外,我们开发了注意力继承的身份注入模块,有效将融合后的身份特征注入视频生成过程,减轻身份漂移问题。最后,我们构建了一个基于MLLM的数据处理流程,结合MLLM的定位、分割及基于团簇的主体整合策略,生成高质量的多主体数据,显著提升主体区分度并减少下游视频生成中的歧义。大量实验表明,PolyVivid在身份保真度、视频真实感及主体对齐方面均表现出色,超越了现有的开源与商业基线模型。
大型语言模型(LLMs)已成为现代人工智能的基石。然而,现有的下一词预测范式从根本上限制了其形成连贯、高层次概念的能力,这成为实现类人理解和推理的关键障碍。以“核糖核酸”这一短语为例:LLM会首先将其分解为人工文本片段(如“核”、“糖”等)的标记,然后逐一学习这些标记,而非将其作为一个统一、连贯的语义实体来把握。这种碎片化的表征阻碍了更深层次的概念理解,并最终影响了真正智能系统的发展。为此,我们引入了概念感知微调(CAFT),这是一种新颖的多标记训练方法,重新定义了LLMs的微调方式。通过支持跨多个标记的序列学习,该方法促进了更强的概念感知学习。我们的实验表明,在包括文本摘要等传统应用及从头蛋白质设计等特定领域任务中,CAFT相较于传统的下一词微调方法均取得了显著提升。多标记预测以往仅在成本高昂的预训练阶段可行;据我们所知,CAFT首次将多标记设置引入训练后阶段,从而有效普及了其优势,惠及更广泛的实践者和研究群体。最后,我们提出方法的意外有效性暗示了对机器学习研究界更广泛的影响。所有代码和数据均可在https://github.com/michaelchen-lab/caft-llm获取。
近期在大语言模型(LLM)推理领域的研究表明,通过强化学习(RL)可以涌现出诸如规划与自我反思等复杂行为。然而,尽管取得了这些成功,当前形式的强化学习仍不足以突破基础模型的局限,因为它主要基于模型现有知识进行优化,而非促进新信息的获取。为应对这一局限,我们采用监督微调(SFT)来学习强化学习所不能掌握的内容,通过利用高质量示范数据,实现新知识与推理模式的融入。我们分析了强化学习与监督微调在LLM推理中的训练动态,发现强化学习在维持并提升模型原有能力范围内问题的表现上更为出色,而监督微调则更有效地推动模型在现有范围之外问题上的进步。基于强化学习与监督微调的互补优势,我们提出了一种新颖的训练方法——ReLIFT(在线微调交替强化学习)。在ReLIFT中,模型主要采用强化学习进行训练,但当遇到难题时,会收集高质量解决方案进行微调,训练过程在强化学习与微调之间交替进行,以增强模型的推理能力。ReLIFT在五个竞赛级基准和一个分布外基准上,相较于其他零强化学习模型,平均提升了超过5.2分。此外,我们展示了ReLIFT在仅使用13%详细示范数据的情况下,性能优于单独使用强化学习或监督微调,凸显了其可扩展性。这些结果有力证明了ReLIFT克服了强化学习的根本局限,并彰显了其巨大的潜力。
近期,显式结构化推理等技术通过强制分离模型的内部“思考”过程与最终响应,展现了强大的测试时扩展能力。在此情境下,影响答案质量的一个关键因素是思考阶段的长度。当推理过短时,模型可能无法捕捉任务的复杂性;反之,若推理过长,模型则可能过度思考,导致不必要的计算并降低性能。本文深入探讨并利用了大型语言模型(LLMs)在显式思维过程中理解和调控其推理长度的内在机制。首先,我们揭示了LLMs如何编码其推理进程,并引入了一种交互式进度条可视化工具,用以揭示模型规划动态的洞见。其次,我们在推理过程中操控内部进度编码,以减少冗余步骤,生成更为简洁且果断的思维链。实证结果表明,这种“超频”方法有效缓解了过度思考,提升了答案准确性,并降低了推理延迟。我们的代码已公开提供。
近期,大型语言模型(LLMs)在多个领域展现了卓越的能力,尤其在数学推理方面,其中几何问题求解仍是一个充满挑战的领域,辅助构造在其中扮演着至关重要的角色。现有方法要么表现欠佳,要么依赖于庞大的LLMs(如GPT-4o),导致巨大的计算成本。我们认为,采用可验证奖励的强化学习(例如GRPO)为训练更小模型提供了一条有前景的路径,这些模型能有效结合辅助构造与稳健的几何推理。然而,直接将GRPO应用于几何推理存在根本性局限,因其依赖于无条件奖励,导致辅助构造不加区分且适得其反。为应对这些挑战,我们提出了群组对比策略优化(GCPO),一个创新的强化学习框架,具备两大关键创新点:(1) 群组对比掩码,它根据上下文效用自适应地为辅助构造提供正负奖励信号;(2) 长度奖励,鼓励更长的推理链。基于GCPO,我们开发了GeometryZero系列,这是一组规模适中的几何推理模型,能够明智地决定何时采用辅助构造。我们在多个流行的几何基准测试(如Geometry3K、MathVista)上进行了广泛的实证评估,结果表明GeometryZero模型持续超越基线(如GRPO),在所有基准测试中平均提升了4.29%。
尽管针对大语言模型(LLMs)及智能体在特定领域基准测试的兴趣日益增长,当前的评估仍局限于静态、小规模的数据集,特别是在网络操作等高风险任务中,这些任务对部署的可靠性要求极高。我们推出了NetPress,一个自动化基准生成框架,专为评估网络应用中的LLM智能体而设计。NetPress引入了一种包含状态与动作的统一抽象机制,能够动态生成多样化的查询集及其对应的真实答案。在运行时,用户可指定基准配置,即时生成数百万条查询。除了动态基准构建外,NetPress还集成了网络模拟器,以提供真实环境反馈,支持在正确性、安全性和延迟性等方面的全面评估。我们在三个代表性应用中实例化了NetPress,揭示了智能体行为中那些静态、仅关注正确性的基准测试常忽略的细微差异。NetPress推动LLM评估向以基础设施为中心领域的真实、可扩展测试迈进,有助于缩小基准测试表现与实际部署准备度之间的差距。代码已发布于https://github.com/Froot-NetSys/NetPress。
我们提出了一种无需训练的方法,通过正交匹配追踪(OMP)重建未见过的词元嵌入,实现预训练大语言模型(LLMs)中分词器的移植。具体而言,我们将每个词汇表外词元近似为共享词元的稀疏线性组合,分两个阶段进行:首先,利用少量共享锚点词元的小词典,在捐赠嵌入空间中计算每个新词元的表示;随后,将这些相同的稀疏系数转换回基础模型的嵌入空间。 在两项具有挑战性的跨分词器任务——LlamatoMistral NeMo(120亿参数)和QwentoLlama(10亿参数)上,我们展示了OMP在多个基准测试中实现了最佳的基础模型性能零样本保持,而其他零样本方法则显著下降。与基线方法(零初始化、均值初始化及现有方法如WECHSEL、FOCUS、ZETT)相比,OMP始终展现出最优的整体性能,无需梯度更新即可有效弥合大分词器间的差异。我们的分析进一步指出,数值分词方案的不匹配是保持数学推理能力的关键挑战。 该技术使得预训练模型权重能够直接与新分词器配合使用,促进了跨分词器的知识蒸馏、推测解码、集成、合并以及领域特定词汇的适配。我们将此方法集成至开源工具mergekit-tokensurgeon中,用于事后词汇重新对齐。
对话式人工智能近期取得了显著进展,但开发用于感知任务指导的实时系统仍面临挑战。这些系统需基于流式视觉输入提供交互式、主动式的协助,然而其开发受限于数据收集和系统评估过程中高昂且劳动密集的成本。为应对这些局限,我们提出了一个包含三大关键贡献的综合性框架。首先,我们引入了一种新颖的数据整理流程,通过标注的自我中心视角视频合成对话,从而创建了\dataset,一个跨多个领域的大规模合成对话数据集。其次,我们开发了一套自动评估指标,并通过广泛的人体研究验证其有效性。最后,我们提出了一种端到端模型,该模型处理流式视频输入以生成上下文相关的响应,并融入了处理数据不平衡和长视频的新技术。此项工作为开发能够引导用户完成多样化任务的实时、主动型AI助手奠定了基础。项目页面:https://pro-assist.github.io/
作为中华语言与文化的基石,汉字涵盖了极其广泛且不断扩展的类别,最新的GB18030-2022标准收录了87,887个字符类别。准确识别如此庞大的字符集,即所谓的超大类识别,对于文化遗产保护及数字化应用而言,既是一项艰巨又至关重要的挑战。尽管光学字符识别(OCR)技术已取得显著进展,但由于缺乏全面的数据集,超大类识别领域仍未被充分探索,现有最大数据集仅包含16,151个类别。为填补这一关键空白,我们推出了MegaHan97K,这是一个超大类、大规模的数据集,前所未有地覆盖了97,455个汉字类别。我们的工作贡献主要体现在三个方面:(1)MegaHan97K是首个全面支持最新GB18030-2022标准的数据集,提供的类别数量至少是现有数据集的六倍;(2)通过其三个独特子集——手写体、历史文献及合成子集,有效解决了长尾分布问题,为所有类别提供了均衡的样本;(3)全面的基准测试实验揭示了超大类场景下的新挑战,包括存储需求增加、形态相似字符识别及零样本学习难题,同时也为未来研究开辟了广阔机遇。据我们所知,MegaHan97K不仅在OCR领域,甚至可能在更广泛的模式识别领域内,都是类别数量最为庞大的数据集。该数据集可通过https://github.com/SCUT-DLVCLab/MegaHan97K获取。
大型语言模型(LLMs)的对齐对于确保其在实际应用中的安全性和可靠性至关重要。直接偏好优化(DPO)作为一种高效方法应运而生,它直接利用偏好对优化模型,显著降低了资源需求。然而,DPO的有效性在很大程度上依赖于数据质量,而数据质量常因噪声而受损。在本研究中,我们提出了gamma-PO,一种动态目标边际偏好优化算法,该算法在成对级别上调整奖励边际。通过引入实例特定的边际校准,gamma-PO策略性地优先处理高置信度对(即展示出更高奖励边际的对),同时抑制来自模糊对的潜在噪声。此外,gamma-PO是一种即插即用的方法,与依赖偏好对间奖励边际的DPO变体兼容。在AlpacaEval2和Arena-Hard等基准测试中,gamma-PO相较于其他基线平均提升了4.4%,为最先进性能设立了新标杆。同时,gamma-PO仅需极少的代码改动,对训练效率的影响微乎其微,使其成为增强LLMs对齐性的稳健解决方案。我们的代码可在https://github.com/sunjie279/gammaPO{https://github.com/sunjie279/gammaPO}获取。
多模态大语言模型(MLLMs)正越来越多地部署在开放、真实的环境中,这些环境中的输入信息往往杂乱无章、定义不清且未必可信。与精心设计的基准测试不同,这些场景中经常出现指令涉及缺失对象或矛盾事实、依赖模糊指代,或要求执行不可行操作的情况。在此类情形下,成功的关键不仅在于任务执行本身,更在于模型能否察觉那些未被言明的问题。本文系统分析了当前MLLMs如何处理这类隐含推理场景:即缺陷未被明确指出,而需通过上下文推断的情况。通过一套涵盖四类现实世界故障模式的诊断测试集,我们对包括o3和GPT-4o在内的六种MLLMs进行了评估,发现模型即便具备必要的感知与推理能力,也常常未能揭示隐藏问题。显式提示表明,这些底层能力确实存在,但往往被压制以迎合用户需求。我们进一步证明,简单的推理时干预措施,如谨慎的角色提示,特别是要求提出澄清问题,能显著提升模型表现。我们的研究揭示了当前MLLMs在推理能力与行为顺从性之间存在的持续差距,并提出了在约束不足环境中增强这些模型可信度的实用策略。
大型语言模型(LLMs)在面对伪恶意指令时常常拒绝回应:这些语义无害的输入查询因保守的安全对齐机制触发了不必要的模型拒绝,严重影响了用户体验。收集此类指令对于评估和缓解过度拒绝现象至关重要,但现有的指令整理方法,如手动创建或指令改写,要么缺乏可扩展性,要么无法生成足够多样且有效的诱导拒绝提示。为解决这些局限,我们提出了EVOREFUSE,一种提示优化方法,能够生成多样化的伪恶意指令,这些指令能持续引发LLMs的自信拒绝。EVOREFUSE采用进化算法,通过变异策略和重组,在指令空间中探索比现有方法更多样化的方向,并迭代进化种子指令,以最大化LLM拒绝概率的证据下界。利用EVOREFUSE,我们创建了两个新颖的数据集:EVOREFUSE-TEST,一个包含582条伪恶意指令的基准测试集,在9个LLMs上平均拒绝触发率比次优基准高出140.41%,词汇多样性提升34.86%,LLM响应置信度得分提高40.03%;以及EVOREFUSE-ALIGN,提供了3000条带有响应的伪恶意指令,用于监督和基于偏好的对齐训练。在EVOREFUSE-ALIGN上监督微调的LLAMA3.1-8B-INSTRUCT模型,与在次优对齐数据集上训练的模型相比,减少了高达14.31%的过度拒绝,同时不牺牲安全性。我们通过EVOREFUSE-TEST的分析发现,模型过度关注敏感关键词而忽视更广泛的上下文,是触发过度拒绝的主要原因。
近年来,大型语言模型(LLMs)在各类自然语言处理(NLP)任务中展现了卓越的能力。然而,它们对越狱攻击和扰动的易感性要求我们进行额外的评估。许多LLMs具备多语言能力,但其安全相关的训练数据主要集中于英语等高资源语言。这可能导致它们在波兰语等低资源语言中易受扰动影响。我们展示了如何通过仅修改少量字符,并利用一个小型代理模型计算词重要性,即可低成本地构建出效果惊人的攻击。我们发现,这些字符和词汇层面的攻击能显著改变不同LLMs的预测结果,暗示了一种可能被利用来绕过其内部安全机制的潜在漏洞。我们在波兰语这一低资源语言上验证了我们的攻击构建方法,并发现了LLMs在该语言中的潜在脆弱性。此外,我们还展示了该方法如何扩展至其他语言。我们发布了所创建的数据集和代码,以供进一步研究。
大型多模态模型(LMMs)通常依赖上下文学习(ICL)以在最小监督下执行新任务。然而,ICL的表现,尤其是在较小的LMMs中,并不稳定,且不总是随着示例的增加而单调提升。我们推测,这是由于LMM被图像嵌入中额外的信息所淹没,而这些信息对于下游任务并非必需。为解决这一问题,我们提出了一种元学习方法,通过从任务相关的图像特征中提炼出一组固定的软提示,并在测试时利用少量示例进行适配,从而为LMM提供了一种诱导少样本能力的替代方案。为促进这一提炼过程,我们引入了一个注意力映射模块,该模块可轻松集成于流行的LLaVA v1.5架构中,并与软提示共同学习,使得LMM在低数据条件下仅需少量梯度步骤即可实现任务适配。在VL-ICL基准上的评估表明,我们的方法在图像扰动下仍持续优于ICL及相关的提示调优方法,提升了视觉问答任务中的任务诱导与推理能力。