每日精选AI研究论文及翻译
超长上下文能力正成为前沿大语言模型不可或缺的特性:智能体工作流、仓库级代码推理和持久记忆都需要模型共同关注数十万到数百万个词元,然而软注意力机制的二次方复杂度使得这一需求在大规模部署中难以实现。我们提出了MiniMax稀疏注意力(MSA),这是一种基于分组查询注意力(GQA)构建的分块稀疏注意力机制。一个轻量级的索引分支对键值块进行评分,并为每个GQA组独立选择Top-k子集,从而实现分组特定的稀疏检索,同时保持高效的块级执行;主分支则仅对所选块执行精确的块稀疏注意力。MSA的设计遵循简洁与可扩展原则,经过刻意精简,使其能够轻松地在多种GPU上高效部署。为了将稀疏性转化为实际的加速效果,我们将MSA与GPU执行路径协同设计,该路径使用无指数运算的Top-k选择和KV外部稀疏注意力,以提升块粒度访问下的张量核心利用率。在一个拥有原生多模态训练的109B参数模型上,MSA实现了与GQA相当的性能,同时在1M上下文下将每词元注意力计算量减少了28.4倍。结合我们协同设计的内核,MSA在H800上实现了14.2倍的预填充加速和7.6倍的解码端到端加速。我们的推理内核可在以下地址获取:https://github.com/MiniMax-AI/MSA。一个基于MSA、原生多模态的生产级模型已在以下地址公开发布:https://huggingface.co/MiniMaxAI/MiniMax-M3。
大型语言模型(LLM)代理在众多基准测试中展现出强大性能,但大多数评估都假设环境是静态的。相比之下,实际部署具有内在的动态性,要求代理持续调整其知识、技能和行为以适应不断变化的环境和更新的任务条件。为解决这一差距,我们引入了EvoArena——一个基准测试套件,它将环境变化建模为终端、软件和社交领域中一系列渐进式更新的序列。我们进一步提出了EvoMem,一种基于补丁的内存范式,将记忆演化记录为结构化的更新历史,使代理能够通过内存变化推理环境的演化过程。实验表明,当前代理在EvoArena上表现不佳,在演化的终端、软件和社交偏好领域平均准确率仅为39.6%。EvoMem持续提升性能,在EvoArena上平均提高1.5%,同时也在GAIA和LoCoMo等标准基准测试上分别提升6.1%和4.8%。除了单个任务,EvoMem在EvoArena上还将链级准确率提升了3.7%,其中成功需要完成一系列连续的相关演化子任务。机制分析表明,EvoMem改善了内存中的证据捕获,表明其能更好地保留完整的演化环境状态。我们的结果凸显了在评估和内存中对演化进行建模对于代理可靠部署的重要性。
计算机使用代理(CUAs)越来越多地在结合了可视化桌面控制、命令行执行、代码编辑、浏览器及外部工具的运行时环境中运行。然而,现有基准测试往往将这些界面作为独立能力进行评估,导致跨界面的长周期协同操作测试不足。为此,我们提出了WeaveBench——一个长周期混合界面基准测试,包含114项任务,覆盖8个真实工作领域,所有任务均基于真实用户请求和可公开验证的工件。每项任务要求代理在单一轨迹中整合GUI观察/操作与CLI/代码操作。我们在已部署的CLI代理运行时环境中的真实Ubuntu桌面上评估这些任务,并为其添加了轻量级桌面控制插件。我们还提出了一种配套的轨迹感知评判器,用于检查交付物、文件、截图、日志和操作痕迹,同时检测诸如伪造视觉证据或硬编码指标等捷径行为。在前沿模型与运行时组合中,最佳通过率仅为41.2%,表明该基准测试远未饱和。轨迹感知评判器进一步揭示,仅基于结果的评分会大幅高估代理性能。总体而言,WeaveBench揭示了CUA评估中的关键缺口,并为衡量代理能否在长周期真实世界任务中协调GUI、CLI和代码操作提供了有效测试平台。
空间推理——即判断物体在三维空间中的位置、相互关系及运动方式的能力——仍然是视觉语言模型(VLM)面临的一项基本挑战。工具增强型智能体试图通过为VLM配备专门感知模块来解决这一问题,但其有效性受限于调用这些工具所依赖的动作接口。本研究探讨了该接口的设计如何影响智能体进行开放式空间推理的能力。现有空间智能体要么采用单次代码执行——在观察到任何中间结果之前就确定完整的分析策略,要么依赖结构化工具调用接口——这种接口在自由组合操作或针对具体任务定制分析方面通常灵活性不足。这两种设计都对开放式、复杂的3D/4D空间推理能力形成了制约。为此,我们提出SpatialClaw,一种无需训练的空间推理框架,采用代码作为动作接口。SpatialClaw维护一个带状态的Python内核,预加载输入帧及一套感知与几何基元,使基于VLM的智能体能够根据所有先前输出,每步编写一个可执行单元,从而灵活组合和操控感知结果,并根据中间文本与视觉观测以及每个问题的具体需求调整分析策略。在覆盖广泛静态与动态3D/4D空间推理任务的20个空间推理基准上评估,SpatialClaw平均准确率达59.9%,比近期空间智能体高出11.2个百分点,且在两个模型家族的六种VLM骨干上均取得一致提升,无需针对基准或模型进行任何特定适配。
我们提出了MaxProof,这是一个面向竞赛级数学证明的群体级测试时扩展框架,应用于MiniMax-M3系列。M3首先训练了三种面向证明的能力——证明生成、证明验证,以及基于评判条件的证明修复——采用一种为低误报率设计的纵深防御生成式验证器。这些能力被整合到单个发布的M3模型中。在测试时,MaxProof将该模型视为生成器、验证器、修正器和排序器,对候选证明的群体进行搜索,并通过锦标赛选择返回一个最终证明。通过MaxProof测试时扩展,M3模型在IMO 2025上达到35/42分,在USAMO 2026上达到36/42分,均超过了人类金牌阈值。
近期图像生成器在单图像生成与编辑方面已展现出卓越的照片级真实感和指令遵循能力。然而受限于其架构设计,这些模型无法实现交错的图文序列生成——这一能力在视觉叙事、智能引导及具身操作等关键领域具有重要应用价值。即便最新的开源统一多模态模型在此类任务中表现亦相当有限。本文提出InterleaveThinker,这是首个赋予任意现有图像生成器交错生成能力的多智能体流水线。具体而言,我们设计规划器智能体来组织图文输入序列,指导图像生成器在每一步执行所需操作。随后引入评判器智能体评估生成器输出,识别偏离规划指令的样本,并修正指令以进行重新生成。为实现该流水线,我们构建了Interleave-Planner-SFT-80k和Interleave-Critic-SFT-112k数据集以完成格式冷启动,进而开发Interleave-Critic-RL-13k,通过GRPO算法强化生成轨迹中逐步指令修正能力。鉴于单条交错生成轨迹可能涉及超过25次生成器调用,优化完整轨迹在计算上不可行,因此我们提出准确率奖励与逐步奖励机制,使得单步强化学习能有效引导整个生成轨迹。实验结果表明,InterleaveThinker可显著提升多种图像生成器的性能。在交错生成基准测试中,其表现可达与Nano Banana及GPT-5相当的水平。令人惊讶的是,该模型还显著增强了基座模型在推理型基准测试中的表现——例如在4步FLUX.2-klein上,我们在WISE和RISE指标上均观察到显著提升。
多模态大语言模型(MLLMs)在视觉理解方面取得了显著成功,但其在真实世界的视觉损坏场景下性能会大幅下降。现有鲁棒性增强方法存在局限:黑盒特征对齐缺乏可解释性,而白盒文本推理无法恢复丢失的像素级细节。本研究探讨一个基本问题:MLLMs能否自主恢复受损的视觉内容?为此,我们提出Robust-U1——一种赋予MLLMs显式视觉自恢复能力以实现鲁棒理解的新框架。该方法包含三个核心阶段:用于初始重建的监督微调、采用双重奖励(像素级SSIM与语义级CLIP相似性)的强化学习以对齐高视觉质量,以及同时考虑损坏输入与恢复图像的多模态推理。大量实验表明,Robust-U1在真实世界损坏基准上实现了最先进的鲁棒性,并在通用VQA基准的对抗性损坏下保持了优越性能。分析证实,高质量的视觉恢复可直接增强推理性能,使自恢复成为鲁棒视觉理解的关键机制。源代码已开源至 https://github.com/jqtangust/Robust-U1。
训练深度搜索代理需要可验证的问题,其答案只有在通过搜索获取足够证据后才能获得。现有的合成方法通常通过丰富图结构来增加表面难度,但单纯的结构复杂性并不能保证实现实际的搜索难度:目标搜索过程可能通过一条更简单的识别路径而崩溃。我们通过一个捷径感知的难度框架形式化了这一差距,并识别出四种可行的捷径风险:证据共覆盖、单线索选择性、暴露常量以及先验知识绑定。为诊断其实际影响,我们使用轨迹特征,包括求解成本、答案命中时间以及先验捷径率。在框架指导下,我们提出了FORT——一种抗捷径训练数据合成框架。FORT通过控制实体选择、证据图构建、问题表述和对抗性优化中的捷径风险,构建抗捷径的训练数据。实验表明,与现有的开源深度搜索数据集相比,FORT能诱导更长的搜索前探索时间,并减少捷径模式。利用生成的轨迹,我们仅通过监督微调训练了FORT-Searcher,在具有挑战性的深度搜索基准测试中,它在同规模开源搜索代理中取得了最佳整体性能。相关资源将在https://github.com/RUCAIBox/FORT-Searcher 上提供。
科学实验室日益依赖AI系统来推理实验方案,但实际的实验操作仍大多超出其能力范围。AI可以协助阅读文献、生成假设和规划实验流程,但在实验台上执行这些流程仍需人类操作员。视觉-语言-动作(VLA)模型为将书面实验流程转化为机器人执行提供了潜在的接口,然而现有的策略主要基于家庭和桌面场景的演示数据进行训练,极少涉及科学实验室中的仪器、透明液体或固定实验流程工作流。要弥合这一差距,既需要实验室专用的监督数据,也需要一个能兼容多种用于执行实验流程的机器人形态的统一学习框架。因此,我们指出数据与具身形态是除模型设计之外的核心瓶颈。为解决数据问题,我们构建了RoboGenesis——一种基于仿真的工作流与数据引擎,它能从原子技能组合出配置好的实验室工作流,验证并筛选执行结果,最终为支持的机器人配置输出结构化的演示数据。在策略层面,我们提出了LabVLA,采用两阶段训练策略:首先通过FAST动作标记预训练,使Qwen3-VL-4B-Instruct骨干网络在接触连续控制学习之前具备动作感知能力;随后通过流匹配后训练,在知识绝缘条件下附加一个DiT动作专家模块。在LabUtopia基准测试中,LabVLA在分布内和分布外场景下均取得了所有基线评估中最高的平均成功率。
推测解码(Speculative Decoding, SD)通过让轻量级草稿生成器并行生成候选序列,再由大型验证器并行验证,从而降低LLM的高推理成本。现有的草稿-验证方法采用二元决策:要么接受,要么完全重新计算。然而,我们发现许多被拒绝的token实际上可以通过从完整验证器中经模型内路由导出的精简子模型正确验证,而无需动用完整验证器。这一发现启发我们采用精简验证器来处理那些需要中等验证资源的token,从而减少对昂贵大型模型的调用。我们提出了VIA-SD(Verification via Intra-Model Routing for Speculative Decoding),一种利用路由精简验证器的多层级框架。草稿token以分层方式处理:高置信度情况直接接受,中等置信度情况由精简验证器重新生成,不确定情况则交由完整模型验证。在四个代表性任务及多个模型家族上,VIA-SD将拒绝率降低了0.10-0.22,在强SD基线上实现了10-20%的加速,相较于非草稿解码实现了2.5-3倍的加速。此外,VIA-SD与现有SD框架兼容,无需修改其训练流程。我们的结果表明,多层级SD是一种可扩展且高效的LLM推理通用范式。项目页面:https://zju-xyc.github.io/VIA-SD-Project-Page/
多模态图像融合旨在将不同模态的互补信息整合到一张融合图像中,使其既能保留丰富的局部细节,又能维持全局一致的外观。现有方法在二维特征网格上构建共享表示,擅长建模局部结构,但对图像级别的全局外观因素调控能力有限。为平衡这两个目标,我们引入了一种基于冻结预训练图像分词器的紧凑一维令牌接口,用于建模非局部外观/基础因素。不同于将分词器作为重建主干的设计,我们的方法将一维令牌空间作为全局载体,同时保留二维空间路径用于局部结构恢复。具体而言,我们提出了选择性令牌编辑(STE),它稀疏地更新/替换少量关键令牌,提供一种轻量级机制来引导全局外观一致性,同时保持融合主干不变且无需额外损失。在四个常用基准上的实验表明,我们的方法在全局一致性和局部保真度上均实现了稳定的多指标提升,取得了最佳整体性能。项目页面:https://zju-xyc.github.io/1D-Fusion-Project-Page/
整体性视觉标记器是统一多模态模型(UMM)的基础,因其能将多种视觉输入映射到统一的表示空间中。本文提出HYDRA-X,这是首个在单一视觉变换器(ViT)中统一图像与视频标记化的UMM。我们的设计围绕两个核心挑战展开:高效地向原生ViT中注入时空重建能力,以及将图像与视频级别的语义感知嵌入潜在空间。为解决第一个挑战,全面消融实验揭示了两个关键发现:(1)帧级因果时间注意力足以用于视觉重建,而全时空注意力反而会降低重建质量;(2)分层时间压缩显著优于单步压缩方案。为解决第二个挑战,我们提出一种轻量化解压缩器,在联合图像-视频教师监督下对时间压缩后的特征进行上采样,从而在紧凑的潜在空间中强制引入互补的语义结构。基于这一整体性标记器,我们进一步提出一种对编辑流程的原则性改进:源-目标交互应发生在标记器内部的潜在级别,而非大语言模型(LLM)内部的语义级别,从而显著提升编辑一致性并加速收敛。在7B稠密模型上进行实例化后,HYDRA-X在图像与视频理解及生成任务上均展现出强劲性能,为未来基于统一标记器的UMM铺平了道路。
基于大语言模型的智能体在自动化科学发现方面展现出日益增长的潜力。给定一个可优化的指标和执行环境,它们能够提出、验证并迭代科学解决方案,且已产出优于人类设计方法的结果。随着模型能力的持续提升,我们认为,自主科学发现的瓶颈正从规定智能体工作流程转向设计智能体环境:即塑造智能体行为的资源、约束与接口。我们将此定义为环境工程:构建能够放大有益行为(如开放式探索、系统性成果管理、智能体间协作)并抑制有害行为(如奖励黑客行为、高摩擦人工监督)的环境。本文提出EurekAgent,一个面向指标驱动型自主科学发现的环境工程化智能体系统。EurekAgent从四个维度进行环境工程:权限工程(实现受限智能体执行与隔离评估);成果工程(实现基于文件系统与Git的协作);预算工程(实现预算感知的探索);以及人在回路工程(实现便捷的人类监督与干预)。EurekAgent在多个数学、内核工程及机器学习任务上取得了新的最优结果,包括以不到11美元的总API成本发现新的26圆填充最优解。我们开源了代码与结果,并呼吁将环境工程作为开发可靠自主研究智能体的核心研究方向。
大语言模型在数学推理中的成功高度依赖于展开阶段生成多样且有效的解答路径。然而,当前展开技术面临一个根本性权衡:词元级采样往往产生仅表述不同而实质冗余的轨迹,而利用随机噪声的嵌入级方法则频繁破坏语义连贯性。为解决这一问题,我们提出N-GRPO——一种集成于组相对策略优化(GRPO)框架中的新型探索策略。我们的方法不依赖词元级采样或原生嵌入级噪声,而是利用语义邻居混合机制。该机制通过混合锚定词元及其最近语义邻居的嵌入表示,动态构建输入表征,从而在严格遵循局部语义流形的同时注入多样性。在DeepSeek-R1-Distill-Qwen不同规模模型上的实验评估表明,N-GRPO不仅在数学推理基准测试中相较于强基线取得持续提升,而且在分布外任务上展现出稳健的泛化能力。
潜在思维链通过将可见的推理轨迹替换为连续的隐藏状态递归来压缩推理,但现有的形式化方法难以使用标准的在策略强化学习(RL)进行优化,且难以从因果角度进行解释。我们的关键洞察在于,一对显式的边界标记可以同时解决这两个问题:离散的进入和退出锚点使潜在块兼容标准的在策略RL,同时这些相同的锚点为机械分析提供了自然的立足点。基于此,我们提出SWITCH,一个可切换的潜在推理框架。模型生成<swi>进入潜在模式,生成</swi>退出。由于这些边界是普通的离散标记,GRPO策略比率在每个决策点都有明确的定义。相同的锚点还使潜在步骤暴露于直接探测和因果干预。我们通过可见到潜在的课程以及Switch-GRPO目标来训练模型,该目标通过递归潜在计算传播梯度。SWITCH在相似规模下始终优于先前的隐藏状态递归潜在推理方法。通过边界标记进行的机械分析进一步揭示了三个发现:(i)<swi>是一个高度局部化的、习得的切换策略,而非风格化的伪影;(ii)它开启的潜在步骤执行特定于问题的、因果重要的计算,而非充当惰性占位符;(iii)该计算集中在进入时的单个隐藏状态转换上。这些结果共同表明,隐藏状态递归潜在推理既可通过RL训练,也可进行直接的机械分析,包括在策略RL本身如何从内部改进模型。
我们提出VideoMDM,这是一种基于扩散的框架,能够直接从单目视频中提取的精确2D姿态来训练3D人体运动先验,无需任何3D真值。预训练的2D转3D提升器提供近似3D姿态序列,作为有噪声的教师信号:这些序列经过扩散处理,由模型在3D空间中进行去噪,并通过重投影预测结果并与精确关键点比较,在2D空间中进行监督。我们证明,在温和假设下,深度加权的2D重投影损失在期望上等价于直接3D监督,并将标准3D运动正则化项——速度一致性和过参数化表示对齐——适配到2D设置。与仅在推理时将2D提升到3D的方法不同,VideoMDM在训练过程中学习连贯的3D运动流形。在HumanML3D上,它几乎缩小了与完全3D监督的MDM(FID 0.88 vs. 0.54)之间的差距;在真实视频数据集Fit3D和NBA上,该方法能够生成人类持续偏好的运动,并取得了强劲的定量结果。
尽管文本到图像(T2I)模型能够生成越来越逼真的图像,但其仍然存在局部、细微且结构复杂的缺陷。诊断这些缺陷需要实例级别的反馈,以明确缺陷发生的位置、类型、原因及其对整体图像质量的重要性。虽然近年来提出的密集反馈方法已超越标量监督,但其以热图为中心的表示方式仍将诊断问题归结为像素场回归,难以定位数量可变的缺陷,也无法将语义原因与单个缺陷关联起来。为了解决这一表示瓶颈,我们提出了结构化缺陷定位(Structured Defect Grounding, SDG),该方法通过将每个缺陷建模为(位置、类型、原因、重要性)元组,将T2I诊断转化为结构化集合预测问题。为了使这一公式可训练且可度量,我们引入了SDG-30K数据集,该数据集包含3万张图像,覆盖四种现代T2I生成器的框级标注,并配套了专用评估协议SDG-Eval。基于这一结构化表示,我们进一步提出了一种从诊断到对齐的框架:视觉语言模型(VLM)作为SDG检测器,BoxFlow-GRPO将预测的缺陷集合转化为源自边界框且经重要性加权的空间奖励,用于扩散模型对齐。大量实验表明,我们的SDG检测器在结构化缺陷定位任务上优于领先的专有VLM模型,而SDG引导的奖励则一致地提升了T2I对齐效果,并支持局部图像的精细化改进。这些结果确立了SDG作为诊断、评估和增强现代生成模型的统一、实例级接口。
我们提出了MoVerse,一个实时视频世界模型,能够从单张窄视场图像创建可交互导航的场景。这一设定极具挑战性,因为输入仅观察到环境的极小部分,而交互式漫游需要完整的周围世界、持久几何、可控相机运动以及时间连贯的高保真观测。MoVerse将世界构建与观测渲染分离来解决此问题。它首先通过拓扑感知扩散将输入扩展为重力对齐的360°全景图,在三维推理前补全缺失的视场。接着,利用全景几何感知残差预测将全景图提升为持久的三维高斯支架,生成密集且可直接渲染的空间记忆。最后,一个高斯条件视频渲染器将沿用户指定相机轨迹的支架渲染结果转换为逼真的视频。为了使该渲染器适用于交互场景,我们训练了一个双向扩散教师模型用于高质量条件渲染,并将其蒸馏为因果自回归学生模型以实现有界延迟流式输出。这种设计结合了显式三维表示的可控性与长程一致性,以及生成式视频模型的感知质量。MoVerse在单个NVIDIA RTX 4090 GPU上支持8 FPS的实时场景漫游,展示了从单张图像创建交互式视频输出的实用路径。
大语言模型越来越多地被部署为执行长周期任务的智能体,然而其性能不仅受模型能力与环境设计的影响,还受到调节智能体与环境之间交互的接口(harness)的制约。现有接口主要依赖人工构造,随着轨迹持续增长、交互日趋复杂,其扩展性面临挑战。在本工作中,我们探究是否可以通过一个可学习的插件模块来生成接口,并以端到端方式进行训练。为此,我们提出HarnessBridge——一种轻量级可学习接口控制器,它将智能体-环境界面参数化为双向投影。HarnessBridge学习两种双向投影:观测投影将原始轨迹蒸馏为紧凑且与决策相关的状态,动作投影则将提议动作转化为可执行的转换或基于轨迹的拒绝。我们通过统一指令微调,在接口监督数据集上训练HarnessBridge。在Terminal-Bench~2.0和SWE-bench Verified基准上,HarnessBridge在匹配或超越强专用接口的同时,显著降低了令牌使用量和轨迹长度,并能从小规模生成器泛化至更大的商业模型。
少步扩散蒸馏在4到8步生成任务中已日渐成熟,但进一步压缩至两步仍具挑战性。本文提出Z-Image Turbo++,这是一种从八步Z-Image Turbo教师模型蒸馏而来的高质量两步图像生成模型。针对两步生成中任务难度增加与模型容量有限这两大核心瓶颈,我们通过三项简单但针对该场景精心设计的选择加以突破。首先,我们提出分布对齐对抗学习,利用教师模型生成的图像而非外部真实图像作为GAN训练的真实样本,从而提供更易实现且更具信息量的对抗目标。其次,我们采用解耦分步参数化,为两个去噪步骤分配独立的模型参数,以更好匹配各自不同的容量需求。第三,我们执行端到端训练与迭代正则化,使第一步能接收来自最终图像质量的梯度,同时通过显式的第一步损失保留有意义的中间生成结果。这些设计共同在定性和定量评估中显著缩小了两步生成与八步生成之间的质量差距,突显了针对少步生成精心设计的蒸馏策略在改善质量-效率权衡方面的潜力。
深度搜索要求智能体通过多步网络搜索、浏览、证据对比与综合来回答复杂问题。其中一项核心挑战在于:当多个方向看似合理,但只有部分方向后续能导向可靠证据时,如何决定搜索路径。若智能体贪婪地跟随当前最优方向,可能会持续延伸一条错误的线索;若不加约束地探索,则可能将预算浪费在孤立的尝试上。为此,我们提出TreeSeeker——一个用于深度搜索中受控试错的推理时框架。TreeSeeker将搜索组织为基于树结构状态的分支-返回搜索,其中每个分支对应一个子目标的试探性方向。每轮搜索中,TreeSeeker读取所有子目标树,识别活跃目标,并利用价值、不确定性和风险等文本UCB信号,在以下操作中进行选择:利用一个有前景的分支、探索一个不确定的替代分支、或剪除一条无效线索并返回至先前的分支节点。TreeMem通过将证据、不确定性、冲突、进展和失败线索附着于产生它们的分支上,来支撑这一控制循环,从而使试错结果能够指导后续决策。在XBench-DeepSearch、BrowseComp和BrowseComp-ZH上的实验表明,TreeSeeker始终优于强大的开源基线,证明显式的分支-返回控制能够与更强的推理和工具执行能力形成互补。
大型语言模型(LLMs)的对抗鲁棒性评估通常报告在固定查询预算下的攻击成功率(ASR),这隐含地假设所有攻击具有相同的成本。然而在实际中,不同攻击策略的计算开销可能相差数个数量级。因此,固定预算下的ASR可能掩盖破解模型所需的真实努力,从而难以判断攻击成本是否与其对攻击者的收益相匹配。我们提出一种基于计算压力的计算感知评估框架,以累计浮点运算次数(FLOPs)作为对抗努力程度的代理指标。我们引入风险-计算曲线,将计算预算映射为攻击风险,并推导出两个指标来总结给定攻击成功所需的平均压力。通过在三个模型家族、四种不同语言模型训练与对齐阶段中的十个模型上,采用三种攻击策略(基于梯度、迭代优化和模板方法)在两个越狱鲁棒性基准测试中进行评估,我们发现:(1)对齐训练对计算空间鲁棒性的影响呈现非单调性;(2)扩大模型规模会降低基于梯度的攻击效果,但对成本更低的模板攻击影响有限;(3)在替代模型上优化的基于梯度的攻击可以迁移到独立的目标模型,从而降低攻击者成本;(4)在单个模型内部,不同危害类别的计算成本差异可达约5倍;(5)安全对齐的强化学习增加了总体成本,同时使某些类别以不成比例的方式更易被攻击。我们开源该框架,以支持计算感知的风险评估与测试。
视觉推理需要整合分布在不同区域、属性和关系中的证据,这使得单链推理容易产生过早的感知承诺和幻觉。我们提出Visual Para-Thinker++,这是一个单策略多智能体框架,其中一个共享的多模态大语言模型(MLLM)策略被实例化为角色条件化的主智能体、工作者智能体和汇总智能体。主智能体使用固定的分配模式分解任务;工作者智能体在上下文隔离下并行推理;汇总智能体整合所有工作者智能体的完整推理轨迹,而不是对最终标签进行多数投票。该共享策略通过多智能体能力注入和角色解耦的多智能体优化进行训练,为相应的标记片段分配角色特定的奖励和优势,以减少协作角色之间的梯度冲突。一个原生推理引擎通过共享视觉前缀和KV缓存重用实现高效的多智能体展开。在V*、CountBench、RefCOCO系列和HallusionBench上,Visual Para-Thinker++始终优于单轨迹和推理时并行基线方法,在幻觉敏感的视觉推理上尤其取得了显著提升。
从低成本心理测量探针预测LLM行为倾向对于安全部署至关重要,但前提是自我报告能可靠地预测行为。近期研究记录了LLM中显著的自我报告与行为分离现象,但这些研究依赖于大五人格这类宽泛人格特质,而即使是人类,这类特质对特定行为的预测能力也较弱。此外,对话会话的隔离以及弱上下文匹配条件,使得我们无法确定LLM是否真正缺乏连贯性,抑或是检测这种连贯性所需的条件未能满足。我们将大五人格与计划行为理论进行对比——后者测量针对特定行为的意图,且对人类行为的预测能力显著优于宽泛特质。我们在四个行为任务和11个前沿LLM上开展实验,同时变化会话上下文和身份诱导。研究发现,自我报告与行为的连贯性存在但具有选择性:1) 在同一对话内,计划行为理论达到人类水平的连贯性,而大五人格则不能;2) 跨不同对话时,仅当行为锚定于即时提示之外的因素(如训练塑造的内隐偏见)时连贯性得以保持,而当行为被上下文强烈启动(如谄媚倾向)时连贯性消失;3) 角色提示使跨对话的自我报告更一致,但并未使行为与之对齐。这些发现表明,大五人格这类粗粒度人格框架可能并非测试部署行为的最佳工具。我们需要更多面向任务和特定行为的测量工具,即便如此,这些工具也需跨任务和上下文进行评估。
同策略蒸馏(OPD)通过利用更强的教师模型对学生自身轨迹进行密集的逐令牌监督来训练学生,其表现通常优于离策略蒸馏和标准强化学习。然而,我们发现其有效性隐式地依赖于两个在实践中常被违背的假设:学生与教师之间的轨迹级对齐,以及教师偏好均匀的令牌级可靠性。因此,我们提出符号一致性门控同策略蒸馏(SG-OPD),该方法在两种互补粒度上使用二元验证器作为教师信任信号:在冷启动阶段,分阶段教师采样混入经验证器认可的教师轨迹;而符号一致性门控在令牌方向上,当教师与验证器修正方向一致时外推蒸馏更新,反之则进行插值。在竞赛级数学推理基准上的实验表明,SG-OPD 始终优于标准 OPD,在逐样本和逐问题层面分别获得平均 1.98 和 7.50 的提升。
紧凑型语言模型(LMs)能降低工具代理的成本、延迟与部署风险。然而,MCP风格的工具使用远不止孤立的函数调用:代理必须从实时目录中发现工具、满足模式约束、维护中间输出间的依赖关系,并将最终响应锚定于可执行的证据链上。小型规划器常能生成看似合理的工作流图,却在工具解析、参数校验、依赖追踪或执行环节中失败。我们认为此类失败模式难以通过小规模语料蒸馏解决。数百条教师轨迹仅能教会工作流格式,却几乎无法覆盖应对动态工具目录中计划修复的恢复行为。为此我们提出Evoflux——一种推理时进化搜索方法,将紧凑型工具使用视为可执行工作流图的修复过程。它通过结构化编辑、执行反馈、自适应强度、元引导重构及多样性剪枝来演化类型化工作流图。在覆盖实时MCP服务器与250个工具的MCP-Bench留出任务上,Evoflux将小型规划器的执行可行性从约3%提升至17-24%。对比之下,基于相同搜索挖掘数据的SFT与SFT+DPO方法表现、不及或甚至低于零样本性能;ReAct虽能达到更高峰值,但伴随更高方差与令牌成本。结果表明,在稀缺教师轨迹预算下,基于执行反馈的搜索更为可靠。
交互式大语言模型(LLM)智能体正逐渐成为日常工作中的一部分,但它们在长期使用中并未可靠地变得更易协作:一个在某一轮对话中被记住的纠正,可能在下一轮对话中仍被违反。我们研究了偏好获取与偏好遵从之间的这种差距。在基于匿名真实用户摩擦案例的任务中,即便使用Mem0记忆系统,仍有57.5%的适用偏好检查被违反。我们提出了一种名为测试时规则获取与编译强制执行(TRACE)的方法,这是一个即插即用的技能层流水线,适用于编码智能体运行时,它能够挖掘用户的纠正性反馈,将其重写为原子规则,并编译成运行时检查,确保智能体在完成未来任务前必须通过这些检查。与由开发者提前编写的运行时检查不同,TRACE技能源自用户自身的聊天纠正。我们通过基于ClawArena编码智能体任务和源自MemoryArena的记忆密集型任务,结合模拟用户参与实验对TRACE进行了评估。在ClawArena上,TRACE将留存偏好违反率从100.0%降至37.6%(分布内任务),并从100.0%降至2.0%(分布外任务)。在源自MemoryArena的任务上,TRACE将分布内违反率从100.0%降至60.5%,同时在任务通过率上达到或超过最强的记忆基线。这些结果表明,将纠正编译为强制执行可以解决纯记忆无法可靠解决的反复摩擦故障模式,减少用户在未来会话中重复相同纠正的需求。实验代码见https://github.com/YujunZhou/TRACE_exp,可部署技能见https://github.com/YujunZhou/tellonce。
搜索代理——即通过搜索工具增强的大型语言模型——加剧了对面向未来的评估基准的需求。现有的基准如BrowseComp依赖静态知识,容易受到测试集污染和参数记忆的影响。因此,模型可以通过事实回忆而非真正的检索来获得高分,通过推理捷径掩盖真实的浏览能力。 本文提出EvoBrowseComp,一个可演进的基准,包含400个英文和400个中文的无污染复杂问题,通过实时网络遍历合成。为了收集这些问题,我们设计了一个三智能体协作框架:(1)问题生成智能体,从实时网络获取新鲜知识以合成问答对;(2)信息过滤智能体,根据可信度和流行度过滤检索到的知识,阻断参数捷径;(3)高层引导智能体,将问题形式化为推理图,减少合成问答对中的逻辑冗余和捷径。由于该框架支持全自动化合成,EvoBrowseComp可以定期更新以防止数据污染并保持时间新鲜度。大量实验证明其难度极大,需要广泛的横向搜索。它为自动更新、高难度基准测试建立了一个可扩展的范式,能够跟上不断变化的世界知识和不断进步的人工智能代理能力。
几何信息不受视角影响,这使得任何图像集合都是对单一三维状态的冗余编码。现有前馈重建模型未能利用这一点:逐视角方法会产生重叠且未对齐的点图,其规模随输入数量线性增长;而全局隐变量方法则限定于固定的低分辨率输出。我们提出Surflo,它将任意数量的无位姿RGB视角压缩为K个隐变量token——即单一全局状态——并通过流匹配将噪声点独立传输至表面,从而解码出有向三维表面点。这使输出摆脱了固定网格或token预算的束缚:同一隐变量可在单次前向过程中生成从数千到百万不等的点。为了抑制独立逐点解码固有的局部不一致性,我们引入一种推理时引导项,通过在ODE积分过程中注入光度梯度来关联邻近点。在表面指标上,Surflo达到或超越了前馈基线方法,其运行速度比需要数百视角的优化方法快一个数量级,并且是唯一将全局隐变量与任意分辨率解码相结合的前馈方法。
我们提出了Flash-GMM,一种融合的Triton内核,用于在单个GPU上高效计算大规模数据的高斯混合模型(GMM)。通过在GPU内存中避免实例化完整的责任矩阵,Flash-GMM相比现有实现实现了20倍加速,并使得在单个设备上训练的数据集规模比之前可行的大100倍以上。为展示其影响,我们将Flash-GMM集成到IVF粗略量化器中,用于近似最近邻(ANN)搜索。我们证明,软GMM聚类现在可作为k-means的即插即用替代方案,并且可以利用GMM责任将边界向量分配到多个聚类中。我们的方法在达到固定召回目标时,最多可减少1.7倍的距离计算次数,或在相同计算成本下,召回率@10提高2-12点。我们将该内核作为开源项目发布。
与预训练视觉模型的表示对齐最近在加速扩散Transformer训练中展现出强大潜力。通过将扩散模型的中间特征与自监督视觉编码器从干净图像中提取的表示对齐,现有方法改善了收敛速度和生成质量。然而,这种对齐也引入了一个不可忽视的约束:扩散模型处理的是带噪输入,其可用信息随不同时间步而变化,而参考特征却提取自干净图像。在本文中,我们从令牌级视角重新审视了这一不匹配问题。我们发现,在全令牌表示对齐下,具有较大对齐梯度范数的令牌表现出稳定的空间偏好,这表明对齐目标并非均匀地影响所有令牌,且可能促使模型依赖完整的干净图像令牌集。为解决这一问题,我们提出MaskAlign,一种令牌子集表示对齐方法,该方法在训练过程中对随机采样的令牌子集施加对齐。通过让模型在多次迭代中接触不同的令牌子集,MaskAlign降低了表示对齐对完整令牌集的依赖,并鼓励对齐行为在令牌子集扰动下变得更稳定。为了缓解直接丢弃令牌所造成的信息损失,我们进一步引入了一个轻量级的掩码前令牌混合模块,该模块在掩码操作前跨令牌共享信息。
机器人仿真器是空中机器人现代研究的基石,既可作为新型控制算法开发的载体,也可作为强化学习策略训练的数据来源。然而,现有四旋翼学习环境常常在物理保真度、多智能体支持以及现代深度强化学习管线所需的吞吐量之间面临权衡。本文提出MuJoCo-Drones-Gym——一个基于MuJoCo物理引擎构建的开源、兼容Gymnasium的多无人机环境。MuJoCo-Drones-Gym支持任意数量的Bitcraze Crazyflie 2.x纳米四旋翼,并提供了模块化API,可选择:(i)物理模型(刚体MuJoCo、显式Python动力学,或地面效应、桨叶阻力、无人机间下洗流的任意子集);(ii)动作接口(每个电机的转速、集体归一化推力、速度设定点或PID航点指令);(iii)观测空间(运动状态向量、RGB/深度/分割相机或邻域邻接信息)。借助PettingZoo ParallelEnv封装,可直接用于多智能体强化学习;而一套包含悬停、速度跟踪、多无人机悬停、航点导航、编队飞行、穿越门竞速及通用多智能体模板共七个任务环境,展示了该接口的广泛适用性。我们描述了环境设计、底层物理与四旋翼动力学,并通过控制与学习示例(与密切相关的gym-pybullet-drones项目相似,但利用了MuJoCo更优的接触处理、渲染与并行化能力)阐明其用法。
多智能体系统主要通过文本进行通信,这会带来有损且昂贵的解码与重新编码开销。KV缓存通信是一种颇具前景的替代方案,但先前的大多数工作都基于同构设置,使用同一模型的重复副本,回避了跨模型潜在对齐这一核心挑战;现有异构方法也存在诸多限制,通常假设共享输入,且传输的缓存主要用于引导。我们研究了一个更根本的问题:异构智能体能否被充分对齐,以实现真正的"读心术",并传递一个智能体所"看到"的内容及其"思考"方式?我们的信息结构分析揭示了一种对偶性:上下文感知的传递由稀疏的推理信号驱动,而上下文非感知的传递(接收方看不到任何输入)则需要密集的上下文知识保存。基于此,我们提出通过轻量级的跨模型缓存变换和两阶段训练(先重构、后生成)来实现异构KV缓存通信的密集对齐。在Qwen3-4B、8B、14B之间的全部六个传递方向以及六个领域内与领域外基准测试中,我们的方法均优于先前的异构基线,在上下文感知设置中以约2至3倍的计算成本优势达到或超越文本通信的效果,并且在上下文非感知的传递(先前方法完全失效)中仍然保持有效。
世界模型(WMs,即学习模拟器)对机器人技术的潜在影响深远——策略评估、策略改进以及测试时规划——所有这些都只需有限的真实世界交互。要解锁这些下游能力,世界模型需要同时满足三个期望:(i) 保真度(即生成与真实情况相关的模拟轨迹),(ii) 一致性(即产生在长时间跨度上连贯的模拟轨迹),以及(iii) 效率(即快速生成模拟轨迹)。我们提出WEAVER(具身推理的多视角世界估计):一种同时实现所有三个期望的世界模型架构,在机器人操作任务上取得了最先进的结果。WEAVER是一个多视角世界模型,通过流匹配损失训练来预测未来潜变量和奖励值。我们提炼了模型架构、记忆和预测目标中的关键设计决策,这些决策是解锁之前世界建模方法难以处理的长期动态操控任务所必需的。我们将WEAVER应用于机器人硬件,证明了其在策略评估(与真实世界成功率的相关系数ρ=0.870)、策略改进(在π_{0.5}机器人基础模型基础上实现38%的真实世界成功率提升)以及测试时规划(相比之前的世界模型,真实世界成功率提升14%,速度提升5-10倍)方面的有效性。在分布外场景下评估时,WEAVER也表现出优于先前世界模型的性能。代码、模型和视频见:https://arnavkj1995.github.io/WEAVER/。
自主网页导航对LLM智能体而言仍然充满挑战,最强的通用系统依赖于专有推理模型,其推理成本对于这类智能体最适用的重复性任务而言过高。我们认为这一差距并非源于模型能力不足,而是智能体架构未能复现人类的三项认知优势:对相关页面区域的选择性注意、对网站结构的持久记忆,以及对常见交互模式的操作流畅性。我们提出WebChallenger——一个通过架构设计而非模型规模来应对上述短板的网页智能体框架,其核心是PageMem:一种从DOM确定性构建的结构化页面表示,将每个页面呈现为带简短摘要的语义分节层级结构。在此共享基础上,我们构建了三种机制以镜像上述三项认知优势:一种分治观察流水线,让智能体快速浏览分节摘要,仅从任务相关区域提取细节;一套轻量级探索与记忆系统,对每个网站遍历一次以构建可复用的页面与元素行为地图;以及复合操作工作流,将常见的多步交互压缩为单一智能体动作,自动处理部分状态变化。由于三者均基于PageMem运行,该框架无需针对特定网站的适配器即可跨网站泛化。使用未经微调的现成开源权重模型,我们的系统在WebArena上达到56.3%,在VisualWebArena上达到48.7%,在Online-Mind2Web上达到51.0%,在WorkArena上达到70.9%,以极低的成本接近前沿专有系统性能。我们的代码已发布于https://github.com/jayoohwang1/webchallenger。
基于预训练视觉基础模型(VFM)的表征自编码器(RAE)近期已成为构建语义丰富潜空间以用于图像生成的一种有前景的方法。然而,其重建质量往往仍不理想,这主要是因为深层VFM表征未能保留足够的细粒度视觉细节。这种局限性在离散化后更为严重,缺失的低层信息难以恢复。事实上,我们观察到浅层VFM特征保留了更丰富的局部外观和结构细节,这与现有RAE中使用的深层特征所携带的高层语义形成互补。受此互补特性的启发,我们提出了Ideal——一种面向离散表征自编码的深度对齐框架。通过将量化令牌同时与浅层和深层VFM特征对齐,Ideal使得生成的离散视觉令牌能够同时保持视觉保真度和丰富语义。大量实验表明,Ideal实现了卓越的重建性能,在ImageNet上达到0.61的rFID,比此前最佳方法领先0.28。当用于自回归图像生成时,Ideal进一步获得了1.89的gFID,树立了自回归图像生成的新最佳水平。
多模态大语言模型(MLLMs)在通用领域展现出了有前景的推理能力,但在医疗健康等专业场景中性能仍然有限,尤其是在多语言和低资源情境下。这一差距在农村印度等地区尤为关键:患者常以本土印度语言表达复杂的医疗问题,并依赖医学影像等多模态输入。现有以英语为中心的MLLMs难以支持此类应用场景,限制了人们公平获取人工智能驱动的医疗辅助服务。为应对这一挑战,我们提出了ArogyaBodha——一个大规模多语言多模态医学问答数据集,它整合了八个异构来源,覆盖31个身体系统、六种成像模态及21个临床领域,涵盖英语和七种主要印度语言。我们还进一步提出了ArogyaSutra——一个基于演员-评论家(actor-critic)的多智能体框架,该框架将工具调用与双记忆机制相结合,实现逐步的、推理感知的决策过程,并利用存储的演员-评论家模拟轨迹进行知识蒸馏。实验表明,我们的数据集和框架在所有印度语言上均提升了多语言医学推理的准确性,消融实验验证了各组件的贡献。源代码和数据集已发布在:https://iitp-cse.github.io/ArogyaSutra/
我们周围充满了各种带有可活动关节部件的物体,例如箱子、把手、门。对可活动部件进行准确且可泛化的感知,对于提升机器人操作能力至关重要。基于这一需求,近期在可活动部件感知方面的研究主要沿两个方向展开:一类工作采用基于位姿的表示方法,但需要高昂的人工标注成本;另一类则利用基于可供性的方法,通过点跟踪预测物体未来运动,无需额外人工标注,但受限于数据质量较低。本文提出一种新的可活动部件表示方法——几何主结构(GPS),该表示抽象了部件的几何结构,以平衡可扩展性与质量。为实现高效且可扩展的数据采集,GPS 与便携式虚拟现实(VR)设备集成,标注一个物体序列仅需一分钟。这种直接人工标注的质量优于估计的可供性。通过高效的 VR-GPS 系统,我们收集了涵盖六类部件、234个物体的 41K 帧数据,并训练了一个仅以单张 RGB-D 物体图像为输入的可泛化 GPS 模型。针对物体操作,我们基于 GPS 预测部署了启发式策略。无需任何领域内微调,我们的方法在 9 个物体的 270 种初始状态下达到了 73% 的成功率。我们的代码、数据和可复用工具已开源至 https://enlighten0707.github.io/gps。
具备工具调用能力的大语言模型智能体在对话全程是否同样安全?我们发现并非如此:智能体在会话启动阶段最为脆弱,而在完成若干常规智能体任务后安全性显著提升——这种现象我们称之为“冷启动安全缺口”。为系统研究这一现象,我们提出了面向智能体的安全性深度评估基准(SODA),该基准可控制智能体在遭遇安全威胁前完成的常规智能体任务数量,最多可设置20个前置任务。通过对4个模型家族7个模型的评估发现,随着前置常规任务数从0增至20,安全性提升了9%-52%。表征分析证实,随着前置任务增加,模型隐藏状态逐渐向安全对齐区域迁移。通过系统研究前置对话中哪些部分最影响安全性,我们发现:常规智能体任务本身是提升安全性的主要驱动力,而智能体自身的先前响应虽对安全性影响较小,却是维持后续实用性的关键。该结论在开源安全基准(AgentHarm、Agent Safety Bench)与实用性基准(BFCL、API-Bank)上的评估中进一步得到验证,证实部署前让智能体通过常规任务进行预热,既能提升安全性又能保持完整能力。基于这些发现,我们推荐一种简单的部署策略:在可能接触安全关键请求前,让智能体先完成若干常规智能体任务,以缓解冷启动安全缺口。我们的代码已开源:https://github.com/Trustworthy-ML-Lab/Agent-Cold-Start-Safety-Gap
部署于大型工具目录中的大语言模型(LLM)在作为智能体运行时,面临一个关键的工具检索瓶颈。由于基于嵌入的检索方法依赖的紧凑编码器可能难以充分捕捉特定工具语义,参数化工具检索通过将每个工具编码为附加到LLM词汇表中的虚拟词元(token)来解决这一问题,并采用两阶段微调(先记忆后检索的SFT),将LLM本身作为检索器使用,在标准ToolBench检索基准上取得了强劲性能。然而,这些基准使用的是冗长且完全明确的查询,其评估方法采用约束解码,仅允许输出有效的词元路径,这并不能揭示模型是否真正理解其工具。为此,我们提出ToolSense——一个基于LLM的开源诊断框架,该框架可将任意工具目录作为输入,并自动生成三个基准测试:一个包含三种模糊等级查询的“真实检索基准”(RRB)、一个多项选择(MCQ)探测基准,以及一个问答(QA)探测基准。当我们将ToolSense应用于ToolBench(约4.7万个工具)并评估五种参数化模型训练配置时,发现存在知识-检索分离现象:在RRB查询中,与完全明确的ToolBench基准相比,若干配置的性能崩溃了约50至64个百分点,甚至低于嵌入模型基线。此外,尽管检索性能强劲,部分模型在事实性探测任务上的得分接近随机水平,这进一步证实了知识-检索分离。我们已在https://github.com/SAP/toolsense开源了ToolSense框架及ToolBench诊断基准。
表现力演奏渲染(EPR)旨在根据音符序列生成逼真的演奏效果。然而,现有的流匹配音频编辑模型仅能处理持续时间相同的同步音乐样本,从而限制了其对表现力时值的理解。我们提出PianoKontext,一种面向古典钢琴音乐的流匹配渲染模型,它在预训练Music2Latent模型的潜在空间中生成可变长度的演奏。我们将MIDI乐谱合成为平铺直叙的音频,并在潜在空间中采用动态时间规整(DTW)构建用于训练的配对数据。这些对齐的嵌入向量在DiT模块中进行拼接,从而以简洁有效的方式学习乐谱与演奏之间的依赖关系。音频样本可访问我们的演示页面:https://realfolkcode.github.io/pianokontext_demo/。
手写文本识别的进步使得大规模历史文献的转录成为可能,但在古文字学(即历史书写研究)领域,对可解释的视觉测量手段仍限于有限访问。本文的核心观点在于,形态学文字分析——特别是从行级转录中学习字符原型的能力——能够定义可扩展、有意义且稳定的古文字学测量指标。具体而言,我们利用基于Transformer的检测架构,结合基于原型的行重建模块,学习原型字符及其出现、变形和定位信息。 我们的贡献体现在两个方面。首先,我们提出了一种深度架构与学习方法,仅需行级转录监督即可实现高效的字符建模,显著优于可学习打字机基线,并实现了精确的字符边界框预测,从而释放了其在古文字学测量中的潜力。其次,我们引入并展示了由该架构支持的自动测量方法在字符、二元组及图形单元间距方面的古文字学相关性。为进行演示,我们扩展了巴黎手稿BnF fr. 2813(14世纪末由查理五世委托制作、由四位抄写员完成的抄本)的注释,覆盖至160页。通过在这些页面中可视化测量结果,我们不仅能够区分图形轮廓,还能发现并分析细微变化。这一案例研究凸显了我们方法的可扩展性及其对训练数据的节俭性——仅需单列文本即可对160页中每一页进行计算测量。 数据和代码已公开提供,详见:https://malamatenia.github.io/morphology4metrology-analysis
学习兼容表示的目标是,在模型更新时,能让特征表示随时间变化而可互换使用。本文证明,由d-Simplex固定分类器学习到的平稳表示在其正式定义下具备兼容性。这一结果奠定了未来研究的基础,并可直接应用于实际学习场景。我们探讨了在模型顺序微调时,利用d-Simplex固定分类器学习兼容性所面临的挑战。根据d-Simplex固定分类器结合交叉熵损失进行学习,能够对齐特征分布的一阶统计量,但可能无法充分捕捉模型更新间表示中的高阶依赖关系。为解决该问题,我们证明,通过交叉熵损失与对比损失的凸组合,使用d-Simplex固定分类器训练模型,不仅能够捕捉高阶依赖关系,而且在兼容性约束下等价于仅用交叉熵损失学习。我们通过大量实验验证了这一发现,并考虑了一种新场景:预训练模型被顺序微调,且偶尔被更优模型替换。实验表明,平稳表示能够实现不间断的检索服务(无需重新处理图库图像),同时在模型更新和替换过程中提升性能,达到了最优水平。代码见 https://github.com/miccunifi/iamcl2r。
大型语言模型(LLMs)越来越多地被用于零样本标注和"大模型作为评判者"(LLM-as-a-judge)任务,然而其可靠性取决于模型内化先验知识与用户提供的指令之间的交互方式。我们研究了这一交互的三个维度:(1)LLM对数据和任务定义的熟悉程度如何影响性能;(2)提示词中附加信息能在多大程度上纠正零样本错误("决策粘性");以及(3)模型对错误任务定义的敏感性。通过在多个数据集(涵盖社交媒体、游戏、新闻和论坛)上使用密集模型和混合专家模型进行毒性检测实验,我们发现近三分之二的零样本错误难以纠正,通过提示词纠正初始错误的总体拯救率仅为34.8%。高置信度错误尤其难以纠正。当模型面对错误定义时,它们会遵循这些定义,同时保持与正确条件下相同的置信度水平。关键在于,我们引入了"定义特异性熟悉度"(DSF),用以衡量模型内部概念与任务定义之间的一致性。在控制数据集层面混杂因素后,DSF与模型性能呈正相关(偏相关系数 r = +0.41),而三种不同的记忆度量指标(ROUGE-L、BERTScore和嵌入余弦相似度)均未表现出正相关。这些发现揭示了标注任务中基于提示词纠正的局限性,强调了定义对齐相较于文本层面记忆的重要性。