每日精选AI研究论文及翻译
OpenClaw已迅速崛起为领先的开源自主智能体运行时,提供包括工具集成、本地文件访问和Shell命令执行在内的强大能力。然而,这种宽泛的操作权限也带来了关键的安全漏洞,使得模型错误可能转化为实际的系统级威胁,如敏感数据泄露、权限提升和恶意第三方技能执行。当前OpenClaw生态系统的安全措施仍高度碎片化,仅针对智能体生命周期的孤立阶段提供保护,缺乏整体性防护方案。为弥补这一空白,我们提出ClawKeeper——一个集成三维防护机制的实时安全框架,其包含三个互补的架构层:(1)基于技能的保护在指令级运作,通过向智能体上下文注入结构化安全策略,实现环境特定约束和跨平台边界管控;(2)基于插件的保护作为内部运行时执行器,在整个执行流水线中提供配置强化、主动威胁检测和持续行为监控;(3)基于监视器的保护引入了一种创新的解耦式系统级安全中间件,可持续验证智能体状态演化。该机制支持在不耦合智能体内部逻辑的前提下实施实时执行干预,例如中止高风险操作或强制人工确认。我们认为这种监视器范式有潜力成为保护下一代自主智能体系统的基础构建模块。大量定性与定量评估表明,ClawKeeper在多样化威胁场景下均展现出卓越的有效性和鲁棒性。我们已公开代码实现。
当前,构建能够与数字平台交互以自主执行关键企业任务的智能体日益受到关注。已有研究探索了基于模型上下文协议(MCP)等抽象框架的工具增强型智能体,以及通过图形界面操作的网页智能体。然而,考虑到其成本与运维开销,此类复杂智能体系统是否必要仍存疑问。我们认为,仅配备终端和文件系统的编程智能体通过直接调用平台API,能更高效地解决众多企业任务。通过对多样化真实场景系统的评估,我们发现这类底层终端智能体的表现与更复杂的智能体架构相当甚至更优。研究结果表明,结合强大基础模型的简单程序化接口已足以实现实用的企业自动化。
近期深度研究系统虽取得显著进展,但其评估体系仍滞后于真实用户需求。现有基准主要采用固定标准评估最终报告,未能对底层研究过程进行评价。多数基准还存在多模态覆盖范围有限、依赖无法反映真实查询复杂度的合成任务、以及无法随知识演进更新等问题。为弥补这些不足,我们推出MiroEval——面向深度研究系统的基准与评估框架。该基准包含100项任务(70项纯文本、30项多模态),均基于真实用户需求构建,并通过支持定期更新的双路径流程实现动态演进。我们提出的评估套件从三个互补维度评估深度研究系统:采用任务特定标准的自适应综合质量评估、基于网络资源与多模态附件的主动检索推理式事实核查、以及聚焦系统在研究中搜索推理与优化全过程的行为审计。对13个系统的评估得出三项主要发现:三个评估维度能捕捉系统能力的互补特性,各自揭示不同系统的独特优势与短板;过程质量可作为整体结果的有效预测指标,并能发现输出级指标无法察觉的缺陷;多模态任务带来显著更大挑战,多数系统得分下降3至10分。MiroThinker系列表现最为均衡,其中MiroThinker-H1在两种场景下均位列榜首。人工验证与鲁棒性测试结果证实了该基准与评估框架的可靠性。MiroEval为新一代深度研究智能体提供了全景式诊断工具。
大型语言模型(LLM)能否仅利用自身原始输出(无需验证器、教师模型或强化学习)来提升代码生成能力?我们通过简单自蒸馏(SSD)方法给出了肯定答案:以特定温度参数和截断配置从模型中采样生成解决方案,随后通过标准监督微调对这些样本进行训练。在LiveCodeBench v6基准测试中,SSD将Qwen3-30B-Instruct的pass@1准确率从42.4%提升至55.3%,且提升效果集中体现在高难度问题上。该方法在4B、8B和30B规模的Qwen与Llama系列模型(包括指导型和思维链变体)中均展现普适性。为探究这一简单方法有效的机理,我们追踪发现收益源于LLM解码过程中的精度-探索矛盾,并证明SSD能以上下文相关的方式重塑词元分布——在需要精确度的场景抑制干扰性的分布尾部,同时在需要探索性的场景保留有效多样性。综合来看,SSD为提升LLM代码生成能力提供了一条互补的后训练路径。
近期大语言模型的进展显著提升了代码智能体的能力,但针对复杂端到端网站开发的系统性评估仍显不足。为填补这一空白,我们推出Vision2Web——一个面向可视化网站开发的分层基准测试框架,涵盖从静态UI转代码生成、交互式多页面前端复现,到长周期全栈网站开发的全流程。该基准基于真实网站构建,包含16个类别共计193项任务,涉及918张原型图和1255个测试用例。为支持灵活、全面且可靠的评估,我们提出基于工作流的智能体验证范式,该范式由两个互补组件构成:GUI智能体验证器和基于视觉语言模型的评判器。通过对不同代码智能体框架下的多模态视觉语言模型进行评估,我们发现所有任务层级均存在显著性能差距,即使最先进的模型在全栈开发任务上仍面临挑战。
在现代AIGC模型惊艳的视觉保真度之下,潜藏着一片"逻辑荒漠"——系统在处理需要物理、因果或复杂空间推理的任务时频频失效。当前评估方法主要依赖表层指标或碎片化基准,形成了忽视生成过程的"性能幻象"。为此,我们推出ViGoR(视觉生成推理基准),这一统一框架旨在破除此类幻象。ViGoR通过四大创新点实现突破:1)贯通图像到视频任务的全模态覆盖;2)同时评估中间过程与最终结果的双轨机制;3)基于证据的自动化评判器确保高人机一致性;4)将性能分解为细粒度认知维度的诊断分析。对20余个主流模型的实验表明,即使最先进的系统仍存在显著推理缺陷,这使ViGoR成为新一代智能视觉模型的关键"压力测试"。演示页面已上线:https://vincenthancoder.github.io/ViGoR-Bench/
在复杂长链条推理任务中,表现出测试时扩展行为(如延长推理轨迹和自我验证)的大语言模型已展现出卓越性能。然而,这些推理行为的稳健性仍未得到充分探索。为此,我们通过三种场景对多种推理模型进行系统评估:(1)添加冗长无关上下文的问题;(2)包含独立任务的多轮对话场景;(3)作为复杂任务子任务呈现的问题。我们发现一个有趣现象:与问题独立呈现时产生的推理轨迹相比,相同问题在不同上下文条件下生成的推理轨迹长度显著缩短(最高达50%)。细粒度分析表明,这种压缩与自我验证及不确定性管理行为(如双重检查)的减少相关。虽然这种行为转变不会影响简单问题的解决效果,但可能对更具挑战性的任务表现造成影响。我们希望本研究能引发对推理模型稳健性、以及大语言模型及其智能体上下文管理问题的更多关注。
时间序列预测在金融、医疗和云计算领域至关重要,但发展受到一个根本性瓶颈的制约:缺乏大规模高质量的基准数据集。为弥补这一空白,我们推出QuitoBench——一个面向八种趋势-季节性-可预测性(TSF)机制均衡覆盖的时序预测基准,其设计重点在于捕捉预测相关特性而非应用定义的领域标签。该基准基于Quito构建,这是源自支付宝业务流量、涵盖九大商业领域的十亿级时间序列语料库。通过对10个深度学习、基础模型及统计基线模型在232,200个评估实例上的测试,我们得出四项关键发现:(一)存在上下文长度交叉现象:深度学习模型在短上下文(L=96)领先,而基础模型在长上下文(L≥576)占优;(二)可预测性是主要难度驱动因素,不同机制间平均绝对误差差距达3.64倍;(三)深度学习模型以59倍更少的参数量达到或超越基础模型性能;(四)对两类模型家族而言,增加训练数据量带来的收益远大于扩大模型规模。这些发现通过跨基准和跨指标的一致性验证得到强化。我们的开源发布为时间序列预测研究提供了可复现的机制感知评估框架。
我们推出HippoCamp——一个专为评估智能体多模态文件管理能力设计的新型基准测试平台。与现有聚焦于通用场景下网络交互、工具使用或软件自动化等任务的智能体评测体系不同,HippoCamp在用户中心化环境中评估智能体,要求其建模个体用户画像并在海量个人文件中进行上下文感知推理。我们的基准平台基于真实世界跨模态用户画像构建了设备级文件系统实例,涵盖2,000余个真实文件,数据总量达42.4GB。基于原始文件库,我们构建了581组问答对以评估智能体的搜索能力、证据感知能力和多步推理能力。为支持细粒度分析,我们还提供了4.61万条密集标注的结构化轨迹数据用于逐级故障诊断。我们在HippoCamp上评估了多种前沿多模态大语言模型(MLLM)与智能体方法。综合实验结果表明存在显著性能差距:即便最先进的商业模型在用户画像构建任务中也仅达到48.3%的准确率,尤其在密集个人文件系统中的长程检索和跨模态推理方面表现欠佳。进一步通过逐级故障诊断,我们发现多模态感知与证据锚定是当前的主要瓶颈。最终,HippoCamp揭示了现有智能体在真实用户中心化环境中的关键局限,为开发新一代个人AI助手奠定了坚实基础。
当前三维生成建模的最新进展主要基于扩散模型或流匹配框架。我们另辟蹊径探索了一种完全自回归的替代方案,提出基于Transformer的GaussianGPT模型。该模型通过下一标记预测直接生成三维高斯体,从而实现完整三维场景的生成。我们首先采用带向量量化的稀疏三维卷积自编码器,将高斯图元压缩为离散潜空间网格。生成的标记经过序列化后,通过具有三维旋转位置编码的因果Transformer进行建模,实现空间结构与外观特征的序列化生成。与基于扩散模型整体优化场景的方式不同,我们的方法通过逐步构建场景,天然支持场景补全、外延绘制、基于温度参数的可控采样以及灵活的生成范围设定。这种建模框架既利用了自回归方法的组合归纳偏置与可扩展性,又兼容现代神经渲染管线的显式表示,将自回归Transformer定位为可控且上下文感知的三维生成范式的补充方案。
标准评估流程揭示了一个反直觉现象:在横跨五个数据集的7.7%基准问题上,尽管参数量增加10-100倍,大型语言模型的表现反而比小型模型低28.4个百分点。通过对31个模型(0.5B-405B参数)在1,485个问题上的系统评估,我们发现其机制在于自发的规模依赖性冗长倾向——模型通过过度阐述产生错误。因果干预实验表明这反映的是可修正的提示设计缺陷,而非根本性能力局限。限制大模型生成简洁回答可使准确率提升26个百分点,并将性能差距缩小多达三分之二。最关键的是,简洁性约束完全逆转了数学推理和科学知识基准测试中的性能层级:大模型相较小模型获得7.7-15.9个百分点的优势——这与原始差距形成直接反转。这种逆转证明大模型具有被通用提示掩盖的潜在优势。我们通过三项独立污染测试验证了该发现,并证明逆向缩放效应在整个参数谱中持续存在,不同数据集的最佳参数规模介于0.5B至3.0B之间。研究结果表明,最大化大模型性能需要采用规模感知的提示工程而非通用评估方案,这对实际部署具有直接意义:提示适配既能提升准确率又可降低计算成本。
测试时缩放技术的兴起显著提升了大型语言模型(LLM)的推理与智能体能力。然而,标准Transformer模型难以高效扩展推理计算量,因为传统循环策略存在高计算开销问题,且KV缓存会随模型深度增加而膨胀。我们提出通用YOCO架构(YOCO-U),通过将YOCO的解码器-解码器架构与递归计算相结合,产生超越单一方法的协同效应。基于YOCO框架构建的YOCO-U采用通用自解码器,通过参数共享实现多轮迭代,同时将迭代过程限制在高效的浅层注意力层中。这种组合实现了YOCO或递归单独使用均无法达到的优异能力-效率平衡:YOCO架构提供恒定的全局KV缓存和线性预填充,而部分递归以有限开销增强了表征深度。二者协同使YOCO-U在保持高效推理的同时,显著提升了标记利用率和扩展性能。实证结果表明,YOCO-U在通用和长上下文基准测试中均保持强劲竞争力,证明高效注意力架构与递归计算的融合是构建可扩展LLM的有效路径。
我们推出PerceptionComp——一个针对复杂、长时序、感知中心型视频推理任务的手工标注基准。该基准的设计确保单一画面无法提供完整答案:每个问题的解答均需整合多个时间分散的视觉证据,在联合逻辑与顺序逻辑下满足组合式约束条件,涵盖物体、属性、关系、位置、动作及事件等感知子任务,并要求具备语义识别、视觉对应、时序推理与空间推理等综合能力。该基准包含来自城市漫步导览、别墅室内导览、电子游戏及极限户外运动等多元领域的279段视频,共1,114道高复杂度问题,全部采用人工标注。人类实验表明,PerceptionComp需要大量实时思考与重复感知步骤:参与者耗时远超现有基准测试,且在禁止回放视频时准确率骤降至随机水平(18.97%)。前沿多模态大语言模型在PerceptionComp上的表现也显著落后于现有基准:评估中最佳模型Gemini-3-Flash在五选一设定下仅达45.96%准确率,开源模型则普遍低于40%。这些结果表明以感知为核心的长时序视频推理仍是重要技术瓶颈,我们期待PerceptionComp能推动感知推理领域的突破性进展。
本文首次提出系统评估框架,用于量化现代编程助手生成论文的质量与风险。尽管AI辅助论文写作已引发广泛关注,但对其质量与潜在风险的严格评估仍显不足,学界对其可靠性的统一认知尚待建立。我们提出论文重构评估法(PaperRecon):首先从现有论文生成概述文件(overview.md),随后由智能体基于概述及少量附加资源生成完整论文,最终将生成结果与原文进行系统对比。该方法将AI生成论文的评估解构为两个正交维度——呈现质量与事实 hallucination,其中呈现质量通过评估量表量化,而事实 hallucination 则采用基于原文的智能体评估机制。为实施评估,我们构建了PaperWrite-Bench基准数据集,涵盖2025年后顶级学术会议出版的51篇跨领域论文。实验结果表明显著权衡关系:虽然ClaudeCode与Codex均随模型升级而改进,但ClaudeCode以平均每篇超10处 hallucination 为代价获得更高呈现质量,而Codex hallucination 较少却呈现质量较低。本研究为建立AI辅助论文写作评估框架、提升学术界对其风险认知迈出重要一步。
能够预测用户需求并自主执行任务的主动式智能体作为数字助手前景广阔,但缺乏真实的用户模拟框架制约了其发展。现有方法将应用程序建模为扁平化的工具调用API,既无法捕捉数字环境中用户交互的状态性与连续性特征,也导致真实用户模拟难以实现。我们推出主动智能体研究环境Pare,该框架支持在数字环境中构建与评估主动式智能体。Pare将应用程序建模为具备状态导航功能和状态依赖型操作空间的有限状态机,从而实现主动式用户模拟。基于此,我们提出包含143项跨通信、生产力、日程管理和生活类应用任务的基准测试Pare-Bench,旨在检验智能体的情境观察、目标推断、干预时机判断及多应用协同能力。
知识蒸馏已成为将前沿大语言模型的推理能力和领域专长迁移至可部署轻量级学生模型的主要机制。然而当前主流范式仍局限于离线策略:学生模型在静态的教师生成数据上进行训练,学习过程中从未接触自身错误。这种训练与推理的错位——暴露偏差的一种表现形式——会导致预测误差在推理时以自回归方式不断累积。在线策略蒸馏通过让学生模型生成自身轨迹,并基于这些自生成输出获得教师反馈,将蒸馏过程建立在交互式模仿学习理论基础上,从而解决了这一问题。尽管该领域在散度最小化、奖励引导学习和自我博弈等方面快速发展,但相关研究仍处于碎片化状态,缺乏统一的理论框架。本综述首次为LLM在线策略蒸馏提供系统性概览:我们引入基于在线采样样本的统一f-散度框架,并沿三个正交维度梳理技术版图——反馈信号类型(基于logit、基于结果或自我博弈)、教师访问权限(白盒、黑盒或无教师)以及损失粒度(词元级、序列级或混合级)。我们系统分析了代表性方法,考察工业级部署方案,并指出包括蒸馏缩放定律、不确定性感知反馈和智能体级蒸馏在内的开放性问题。
三维视觉定位(3D-VG)旨在通过自然语言描述在三维场景中定位物体。尽管近期基于视觉语言模型(VLM)的探索已实现零样本能力,但这些方法通常受限于依赖预处理点云数据的静态流程,本质上将定位任务降级为候选区域匹配。为突破这一局限,我们的核心思路是将任务解耦:利用二维VLM解析复杂空间语义,同时基于确定性多视图几何实现三维结构实例化。基于此,我们提出"思考-行动-构建"动态智能框架,将3D-VG任务重构为直接处理原始RGB-D序列的生成式二维到三维重建范式。具体而言,在专用3D-VG技能引导下,我们的VLM智能体动态调用视觉工具跨二维帧追踪并重建目标。关键的是,为克服严格VLM语义追踪导致的多视图覆盖缺失,我们提出语义锚定几何扩展机制:首先在参考视频片段中锚定目标,继而利用多视图几何将其空间位置传播至未观测帧。这使得智能体能通过相机参数聚合多视图特征,"构建"目标的三维表征,直接将二维视觉线索映射至三维坐标。此外,针对现有基准中存在的参考歧义与类别错误等缺陷,我们手动修正错误查询以确保严谨评估。在ScanRefer和Nr3D数据集上的大量实验表明,本框架完全基于开源模型即显著超越现有零样本方法,甚至优于全监督基线。
我们研究手机智能体在执行良性移动任务时是否尊重用户隐私。由于隐私合规行为尚未在手机智能体中实现操作化定义,且普通应用不会透露智能体在执行过程中具体将哪些数据填入何种表单条目,这一问题长期难以量化。为使该问题可测量,我们推出MyPhoneBench——一个可验证的手机智能体隐私行为评估框架。通过最小化隐私合约iMy,我们将尊重隐私的手机使用操作化定义为权限许可访问、最小化披露和用户可控存储,并将其与插桩模拟应用及基于规则的审计系统相结合,使不必要的权限请求、欺骗性重复披露和冗余表单填写行为变得可观测、可复现。基于10款移动应用和300项任务对五款前沿模型的测试表明:任务成功率、隐私合规任务完成度以及后续会话中对已保存偏好的使用能力是三种独立的能力维度,没有单一模型能在所有维度上领先。联合评估任务成功率和隐私表现会重塑仅基于单一指标的模型排序。所有模型中最突出的共性缺陷是数据最小化原则的违背:智能体仍会填写任务非必需的隐私条目。这些结果表明,隐私漏洞源于智能体过度"热心"地执行良性任务,而仅评估任务成功率会高估当前手机智能体的实际部署成熟度。所有代码、模拟应用及智能体运行轨迹已开源:https://github.com/tangzhy/MyPhoneBench。
近年来,推荐模型缩放律(指模型性能与参数量/计算量的关系规律)日益受到关注。目前实现推荐模型缩放的主流架构主要包括基于注意力机制、基于TokenMixer以及基于因子分解机的方法,这些方法在设计理念和架构结构上存在本质差异。本文提出一种统一的推荐系统缩放架构UniMixer,旨在提升缩放效率并建立统一主流缩放模块的理论框架。通过将基于规则的TokenMixer转换为等效的参数化结构,我们构建了广义参数化特征混合模块,使得令牌混合模式能在模型训练过程中被优化学习。同时,广义参数化令牌混合打破了TokenMixer中头数必须等于令牌数的约束。此外,我们建立了推荐系统统一的缩放模块设计框架,连通了基于注意力、TokenMixer和因子分解机方法之间的内在联系。为提升缩放投资回报率,本文进一步设计了轻量化UniMixing模块UniMixing-Lite,在显著提升模型性能的同时进一步压缩了参数量和计算成本。缩放曲线如下图所示。大量离线与在线实验验证了UniMixer卓越的缩放能力。
多轮大语言模型修订流程通常被认为其增益源自对初稿错误的实质性修正。我们通过受控分解实验对这一假设提出质疑,该实验采用四种匹配条件将第二轮的增益拆分为三个可叠加成分:重新求解、框架支撑与内容优化。我们在三组涵盖知识密集型选择题和竞争性编程的基准测试中,评估了两组模型对的性能表现。结果表明,多轮修订的收益并非单一机制,而是取决于任务结构、初稿质量及初稿信息类型。在选择题任务中,由于答案空间受限且初稿缺乏结构性指导,大部分增益与强模型直接重新求解的结果一致,此时将问题直接路由至强模型比修订弱模型初稿更有效。然而在代码生成任务中,即使语义空洞的初稿也能提供显著的结构支撑,而低质量初稿内容可能产生负面影响,因此两阶段提示法仍具价值。角色反转实验进一步表明,高质量初稿能明显提升弱模型的评审效果。最终我们的研究揭示:多轮修订的效用受到任务结构与初稿质量的动态制约,这要求我们设计更具针对性的流程方案,而非采用通用的修订策略。
基于约48个经过执行验证的HumanEval训练样本,通过为每个循环层仅调优单个初始状态矩阵(零推理开销),我们在HumanEval上的表现超越LoRA方法10.8个百分点(p < 0.001)。这种被我们称为S0调优的方法在冻结所有权重参数的同时,为每个循环层优化一个状态矩阵。在Qwen3.5-4B(GatedDeltaNet混合架构)上,S0调优将贪婪pass@1指标提升23.6±1.7个百分点(10次随机种子实验)。在FalconH1-7B(Mamba-2混合架构)上,S0达到71.8%±1.3,LoRA为71.4%±2.4(3次种子实验),在当前样本量下统计无差异且无需权重合并。跨领域迁移在MATH-500(+4.8pp,p=0.00002,8次种子)和GSM8K(+2.8pp,p=0.0003,10次种子)上效果显著;文本转SQL基准(Spider)未显示迁移效果,这与轨迹导向机制相符。在纯Transformer架构(Qwen2.5-3B)上进行的前缀调优对照组,所有九种配置均出现13.9个百分点的性能下降。在Qwen3.5上,每步状态偏移变体达到+27.1pp,超越S0和LoRA但需承担每步推理开销。综合结果表明,当验证监督数据稀缺时,循环状态初始化是混合语言模型中一种强大的零推理开销参数高效微调方案。调优后的状态文件约48MB;任务切换无需权重合并或模型重载。代码与库:https://github.com/jackyoung27/s0-tuning。
文档理解与图形用户界面交互是视觉语言模型(VLM)最具价值的应用场景之一,然而这类任务对计算资源的需求极为沉重:精细文本和微小UI元素要求高分辨率输入,从而产生数万个视觉标记。我们发现这种开销在很大程度上是浪费的——在文档和GUI基准测试中,仅有22%至71%的图像块是像素唯一的,其余部分均与同一图像中的其他块完全重复。为此,我们提出PixelPrune,该方法利用基于预测编码的压缩技术,在视觉变换器(ViT)编码器之前剔除冗余块,从而利用像素级冗余。由于它在执行任何神经计算之前已在像素空间进行操作,PixelPrune能够同时加速ViT编码器和下游LLM,覆盖整个推理流水线。该方法无需训练、不含可学习参数,并支持像素无损压缩(τ=0)以及可控有损压缩(τ>0)。在三种模型规模及文档与GUI基准测试上的实验表明,PixelPrune在保持具有竞争力的任务精度的同时,实现了高达4.2倍的推理加速和1.9倍的训练加速。代码已开源:https://github.com/OPPO-Mente-Lab/PixelPrune。
现代大型语言模型(LLMs)日益依赖高效的长上下文处理与生成机制——包括稀疏注意力、检索增强生成(RAG)和压缩上下文记忆——以支持复杂推理。我们证明这些优化技术可统一为四步记忆处理流程:准备记忆、计算相关性、检索记忆、应用于推理。通过系统性能分析,我们发现LLM推理中存在22%-97%的记忆处理开销,且其计算特征具有显著异构性。基于此洞见,我们论证异构系统非常适合加速记忆处理,从而提升端到端推理效率。我们在GPU-FPGA异构系统上实现这一方案:将稀疏、不规则及内存受限的操作卸载至FPGA,同时将计算密集型操作保留在GPU。在AMD MI210 GPU与Alveo U55C FPGA的测试表明,相较于GPU基准方案(在NVIDIA A100上亦获得类似结果),我们的系统在多种LLM推理优化中速度提升1.04-2.2倍,能耗降低1.11-4.7倍。这些结果确立了异构系统作为高效LLM记忆处理的可行方向,并为未来异构硬件设计提供了重要参考。
基于大语言模型的购物代理日益依赖长购物历史和多轮交互实现个性化,但直接将原始历史记录附加至提示往往因噪声干扰、长度过长及关联性错配而效果有限。我们提出MemRerank偏好记忆框架,将用户购买历史提炼为简洁的查询无关信号,用于个性化商品重排序。为研究该问题,我们构建了以基于大语言模型的五选一任务为核心的端到端评估基准,同时衡量记忆质量与下游重排序效用。通过强化学习训练记忆提取器,并以下游重排序性能作为监督信号。在两种大语言模型重排序器上的实验表明,MemRerank在无记忆、原始历史及现成记忆基线中持续领先,五选一准确率最高提升10.61个绝对百分点。这些结果证明显式偏好记忆是智能电商系统个性化实践中实用且有效的构建模块。
随着基于大语言模型的智能体被部署到生产系统中,理解其行为一致性(即在相同任务下是否产生相似动作序列)对确保可靠性至关重要。本研究以SWE-bench这一需要复杂多步推理的软件工程基准为背景,对Claude 4.5 Sonnet、GPT-5和Llama-3.1-70B进行行为一致性分析。通过每组50次运行(10项任务×5次重复)的对比发现:模型间比较时,更高的一致性对应更高的准确率——Claude方差最低(变异系数15.2%)且准确率最高(58%),GPT-5处于中间水平(变异系数32.2%,准确率32%),Llama方差最高(变异系数47.0%)且准确率最低(4%)。然而在模型内部,一致性可能同时放大正确与错误的理解。分析揭示关键细微差别:一致性强化结果而非保证正确性。Claude的失败案例中71%源于“持续性错误解读”,即所有运行均出现相同错误假设。值得注意的是,GPT-5虽与Claude达成相似的早期策略共识(分别于第3.4步与第3.2步开始分化),但其方差高出2.1倍,表明分化时机并非决定一致性的唯一因素。这些发现提示在生产部署中,理解准确度比执行一致性更重要,这对智能体评估与训练具有重要启示。
随着大语言模型智能体从处理简短静态问题转向在动态环境中执行复杂长期任务,其在任务执行过程中处理用户中断(如追加需求或修正目标)的能力正成为实际部署的核心需求。然而现有基准测试大多假设智能体行为不受干扰,或仅在短期无约束的语言任务中研究中断现象。本文首次对长期、环境关联的网页导航任务中可中断智能体进行系统性研究,此类任务中的操作会引发持久性状态改变。我们形式化了三种现实中断类型(追加、修正、撤销),并推出InterruptBench——一个基于WebArena-Lite构建的基准测试集,通过在严格语义约束下合成高质量中断场景。借助统一的中断模拟框架,我们在单轮和多轮中断设置下评估了六种强力大语言模型内核,既分析其适应更新意图的有效性,也考察其从中途变更中恢复的效率。实验结果表明,对于性能强劲的大规模语言模型而言,在长期智能体任务中有效且高效地处理用户中断仍具挑战性。代码与数据集已发布于https://github.com/HenryPengZou/InterruptBench。
视觉-语言-动作(VLA)模型旨在通过视觉观察和自然语言指令来控制机器人执行操作任务。然而,现有的分层与自回归范式常引入冗余架构,存在时序不一致性和长周期误差累积问题,且缺乏无需额外模块即可捕捉环境动态的机制。为此,我们提出MMaDA-VLA——一个完全原生预训练的大型扩散VLA模型,将多模态理解与生成统一于单一框架。其核心在于采用原生离散扩散建模方法,将语言、图像及连续机器人控制嵌入统一离散标记空间,并通过掩码标记去噪训练单一主干网络,以并行方式联合生成未来目标观测值与动作片段。迭代去噪机制实现了全局无序优化,在无需辅助世界模型的情况下,既能提升长周期任务的一致性,又能将动作生成锚定于预测的未来视觉结果。在仿真基准与真实任务中的实验表明,该方法达到业界最优性能:在LIBERO上取得98.0%平均成功率,在CALVIN上实现4.78平均任务长度。
二维装配示意图通常较为抽象且难以遵循,这催生了能够监控进度、检测错误并提供分步指导的智能助手需求。在混合现实环境中,此类系统必须从摄像头画面中识别已完成和正在进行的步骤,并将其与示意图说明对齐。视觉语言模型在此任务中展现出潜力,但由于装配示意图与视频帧之间视觉特征差异显著,面临着表征差异的挑战。为系统评估这一差异,我们构建了IKEA-Bench基准测试集,涵盖29款宜家家具产品的6类任务共1,623个问题,并在三种对齐策略下评估了19个视觉语言模型(20亿至380亿参数)。主要发现包括:(1)通过文本可恢复装配指令理解能力,但文本会同时削弱示意图与视频的对齐;(2)模型架构家族比对参数数量更能预测对齐精度;(3)视频理解仍是难以突破的瓶颈,不受策略影响。三级机制分析进一步表明,示意图与视频占据视觉Transformer的不相交子空间,添加文本会使模型从视觉驱动转向文本驱动推理。这些结果指出视觉编码是提升跨表征鲁棒性的主要改进方向。项目页面:https://ryenhails.github.io/IKEA-Bench/
大型语言模型(LLMs)及其应用(如智能体)极易受到提示注入攻击。当前最先进的提示注入检测方法存在以下局限性:(1)随着上下文长度的增加,其检测效能显著下降;(2)缺乏明确定义提示注入行为的规则,导致检测决策具有隐含性、不透明性且难以追溯。本研究提出AgentWatcher框架以解决上述两大局限。针对第一个局限,AgentWatcher将LLM的输出(如智能体的行动)归因于少量具有因果影响力的上下文片段。通过将检测聚焦于相对简短的文本,该框架可适配长上下文场景。针对第二个局限,我们制定了一套明确界定提示注入行为的规则集,并采用监控LLM基于归因文本进行规则推理,使检测决策更具可解释性。我们在工具调用智能体基准测试和长上下文理解数据集上进行了全面评估。实验结果表明,AgentWatcher能有效检测提示注入攻击,并在无攻击场景下保持模型效能。代码已开源:https://github.com/wang-yanting/AgentWatcher。
精准睡眠分期对脑卒中患者阻塞性睡眠呼吸暂停(OSA)与低通气的诊断至关重要。尽管多导睡眠监测(PSG)结果可靠,但存在成本高昂、操作繁复且需人工判读的局限性。虽然深度学习技术已实现健康人群基于脑电图(EEG)的自动睡眠分期,但我们的分析表明该技术对睡眠结构紊乱的临床人群泛化能力较差。通过Grad-CAM可解释性技术,我们系统论证了这一局限性。本文发布新标注的缺血性脑卒中临床数据集iSLEEPS(将公开共享),并评估了SE-ResNet结合双向LSTM模型在单通道EEG睡眠分期中的表现。如预期所示,健康人群与患者间的跨领域模型性能较差。结合临床专家反馈的注意力可视化显示,模型在患者数据中聚焦于缺乏生理学意义的EEG区域。统计与计算分析进一步证实健康人群与缺血性脑卒中队列存在显著睡眠结构差异,强调需在临床验证后部署具备受试者感知或疾病特异性的模型。论文摘要与代码详见https://himalayansaswatabose.github.io/iSLEEPS_Explainability.github.io/