每日精选AI研究论文及翻译
尽管个体智能体能力通过模块化技能与工具集成已实现飞速发展,但多智能体系统仍受限于固定的团队结构、紧耦合的协调逻辑以及会话绑定的学习模式。我们认为这反映出更深层次的缺失:一个能够管理智能体工作队伍如何组建、治理并持续优化的组织化层级,该层级应与个体智能体的知识体系解耦。为填补这一空白,我们提出OneManCompany(OMC)框架,将多智能体系统提升至组织化层面。OMC将技能、工具与运行时配置封装为可移植的智能体身份——人才单元,并通过类型化组织接口对异构后端进行抽象编排。社区驱动的人才市场支持按需招募,使组织能够在执行期间动态弥补能力缺口并重构自身。组织决策通过探索-执行-评审(E²R)树搜索实现操作化,该机制将规划、执行与评估统一于分层循环中:任务自上而下分解为可问责单元,执行结果自下而上聚合以驱动系统性评审与优化。此循环既提供终止性与无死锁的形式化保证,又镜像了人类企业的反馈机制。这些创新共同将多智能体系统从静态预配置流程转变为能够适应跨领域开放任务的自组织、自优化的AI组织。在PRDBench上的实证评估表明,OMC实现84.67%的成功率,较现有最优技术提升15.48个百分点,跨领域案例研究进一步验证了其普适性。
近期视频基础模型在视觉合成方面展现出卓越能力,但常存在几何不一致性问题。现有方法试图通过架构修改注入三维先验,但往往伴随高计算成本并限制可扩展性。我们提出World-R1框架,通过强化学习实现视频生成与三维约束的对齐。为此,我们专门构建了适用于世界模拟的纯文本数据集。基于Flow-GRPO算法,利用预训练三维基础模型和视觉语言模型的反馈进行优化,在不改变底层架构的前提下强化结构连贯性。我们进一步采用周期性解耦训练策略,平衡刚性几何一致性与动态场景流畅度。大量实验表明,该方法在保持基础模型原有视觉质量的同时,显著提升了三维一致性,有效弥合了视频生成与可扩展世界模拟之间的鸿沟。
统一多模态模型通常依赖预训练的视觉编码器,并采用相互独立的视觉表征进行理解与生成任务,这导致两项任务间存在错位,阻碍了从原始像素端到端的完整优化。我们推出Tuna-2——一个原生统一多模态模型,可直接基于像素嵌入执行视觉理解与生成。该模型通过采用简易的补丁嵌入层对视觉输入进行编码,彻底摒弃了VAE或表征编码器等模块化视觉编码器设计,极大简化了模型架构。实验表明,Tuna-2在多模态基准测试中达到顶尖性能,证明统一的像素空间建模完全可与潜在空间方法在高品质图像生成领域竞争。此外,虽然基于编码器的变体在预训练初期收敛更快,但Tuna-2的无编码器设计在大规模场景下实现了更强的多模态理解能力,尤其在需要细粒度视觉感知的任务上表现突出。这些结果表明预训练视觉编码器并非多模态建模的必要条件,端到端的像素空间学习为生成与感知任务提供了可扩展的强视觉表征路径。
当前对空间智能的评估在现代视觉语言模型(VLM)场景下可能存在系统性失效。首先,许多基准测试的问题-答案对源自基于点云的三维标注数据,这些数据最初是为传统三维感知任务构建的。当此类标注被直接用作视频评估的基准时,重建与标注过程中产生的伪影可能导致明显可见的物体被遗漏、物体身份误标,或使依赖几何的答案(如尺寸)失真,从而产生错误或模糊的问答对。其次,评估通常假设模型可访问完整场景,而多数VLM实际仅处理稀疏采样的帧序列(如16-64帧),这使得许多问题在模型真实输入条件下实际上无法解答。为提升评估有效性,我们提出ReVSI基准与协议,通过确保每个问答对在模型实际输入条件下可解答且答案正确来改进评估。具体而言,我们使用专业三维标注工具对5个数据集的381个场景重新进行物体与几何标注以提升数据质量,并通过严格的偏差消减和人工验证重新生成所有问答对。此外,我们通过提供多帧预算(16/32/64/全帧)变体和细粒度物体可见性元数据来增强评估可控性,支持受控的诊断分析。基于ReVSI对通用及领域专用VLM的评估揭示了传统基准所掩盖的系统性失效模式,从而为空间智能提供了更可靠且具备诊断能力的评估方案。
视觉-语言-动作(VLA)模型正逐渐成为具身智能的统一基础。这一转变引发了一系列新型安全挑战,这些挑战源于VLA系统的具身特性,包括不可逆的物理后果、跨视觉、语言和状态的多模态攻击面、防御的实时延迟约束、长时程轨迹中的误差传播,以及数据供应链中的漏洞。然而现有研究仍分散在机器人学习、对抗性机器学习、AI对齐和自主系统安全等领域。本文对视觉-语言-动作模型的安全性进行了统一且前沿的综述。我们沿着两条并行的时间轴(攻击时序——训练时与推理时,防御时序——训练时与推理时)对领域进行梳理,将每类威胁与其可被缓解的阶段相连接。我们首先界定VLA安全的范畴,将其与纯文本LLM安全及经典机器人安全相区分,并回顾VLA模型的基础架构、训练范式和推理机制。接着从四个维度审视现有研究:攻击、防御、评估与部署。我们系统梳理了训练时威胁(如数据投毒和后门攻击)以及推理时攻击(包括对抗性补丁、跨模态扰动、语义越狱和冻结攻击),综述了训练时与运行时防御技术,分析了现有基准与评估指标,并探讨了六大部署领域的安全挑战。最后,我们重点提出了五大待解难题:具身轨迹的认证鲁棒性、物理可实现的防御机制、安全感知训练、统一运行时安全架构以及标准化评估体系。
在回答图像相关问题时,人类会自然地通过指点、标注和绘图来解释推理过程。相比之下,现代视觉语言模型(如Gemini-3-Pro和GPT-5)仅能生成文本回复,这使得用户难以验证其推理。我们提出SketchVLM——一种免训练、模型无关的框架,可使视觉语言模型在输入图像上生成非破坏性、可编辑的SVG叠加层,从而对其答案进行可视化解释。在涵盖视觉推理(迷宫导航、落球轨迹预测和物体计数)与绘图(部件标注、点连线、物体轮廓描绘)的七项基准测试中,SketchVLM将视觉推理任务准确率最高提升28.5个百分点,注释质量相较图像编辑和微调绘图基线最高提升1.48倍,同时生成的注释与模型所述答案的契合度更高。研究发现,单轮生成已能实现较强的准确性和注释质量,而多轮生成为人机协作开辟了更多可能性。交互演示和代码详见https://sketchvlm.github.io/。
语言模型智能体正日益成为跨多个工作日的持续性协作伙伴。为评估此类工作流,我们构建了新型基准测试,其特点在于:多轮次跨天任务设计、状态可演化的沙盒服务环境,以及基于规则的验证机制。当前版本涵盖13个专业场景的100项任务,在五类状态化沙盒服务(文件系统、电子邮件、日历、知识库、电子表格)中执行,并通过1537个确定性Python检查器对执行后的服务状态进行评分——全程未使用LLM作为评判工具。我们对七种前沿智能体系统进行测试,最强模型加权得分达75.8%,但严格任务完成率最高仅为20.0%,表明部分任务进展常见而端到端工作流完整执行仍属罕见。轮次分析显示,性能在首次外部环境更新后显著下降,凸显出适应动态状态是当前核心挑战。我们公开基准测试、评估框架及构建流程,以支持可复现的协作智能体评估。
大型语言模型容易产生事实错误的幻觉陈述。这类错误的关键根源在于监督微调过程中接触新事实信息,可能导致模型对预训练阶段所学知识产生更多幻觉。本文从持续学习理论中汲取成熟工具,探索如何缓解监督微调引发的幻觉问题——这类幻觉本质上是训练过程中知识退化的副产品。我们提出一种基于自蒸馏的监督微调方法,通过正则化输出分布漂移,在实现有效事实学习的同时,最大限度减少对既有知识的幻觉。研究还表明,在无需获取新知识的场景下,通过冻结参数组来抑制事实可塑性,可在保持任务性能的同时降低幻觉。最后我们通过三个假说(容量限制、行为克隆和局部干扰)探究监督微调引发幻觉的机制。实验表明,语义表征重叠引发的干扰是主要诱因,而自蒸馏技术正是通过缓解这种干扰发挥作用。
过程奖励模型(PRMs)在数学等静态领域显著提升了大型语言模型(LLMs)的推理能力,但其在动态数据分析任务中的潜力尚未得到充分探索。本研究首先通过实证分析发现,通用领域PRMs难以有效监督数据分析智能体:它们既无法检测静默错误(即不引发解释器异常但导致错误结果的逻辑缺陷),又会错误惩罚探索性操作,将必要的试错探索误判为环境交互失败。为弥补这一缺陷,我们提出DataPRM——一种新型环境感知生成式过程奖励模型,其具备双重特性:(1)可作为主动验证器,通过自主与环境交互探测中间执行状态以发现静默错误;(2)采用反射感知的三元奖励策略,能区分可修正的环境交互错误与不可恢复的失误。我们设计可扩展的流程,通过多样性驱动的轨迹生成与知识增强的步骤级标注,构建了超过8K高质量DataPRM训练实例。实验结果表明,基于Best-of-N推理,DataPRM将下游策略LLMs在ScienceAgentBench和DABStep上的性能分别提升7.21%和11.28%。值得注意的是,仅需40亿参数的DataPRM即可超越强基线模型,并在多种测试时扩展策略中展现出稳健的泛化能力。进一步将DataPRM融入强化学习后,相较结果奖励基线取得显著增益,在DABench和TableBench上分别达到78.73%和64.84%的准确率,验证了过程奖励监督的有效性。代码已开源:https://github.com/zjunlp/DataMind。
我们推出Sapiens2——一个专注于泛化性、多功能性及高保真输出的人本视觉高分辨率Transformer模型家族。该系列模型参数量从4亿至50亿不等,原生支持1K分辨率,其分层变体更可支持4K超高清。Sapiens2在预训练与后训练阶段均较前代实现显著提升。首先,为同时捕获低层级细节(用于密集预测)和高层级语义(用于零样本或少标签场景),我们融合掩码图像重建与自蒸馏对比学习目标。评估表明这种统一的预训练目标能更好地适应多样化下游任务。其次在数据层面,我们基于精心筛选的10亿张高质量人体图像进行预训练,并提升任务标注的质量与规模。第三在架构层面,我们引入前沿模型的先进技术,实现更稳定的长周期训练。4K模型采用窗口注意力机制以处理长空间上下文,并以2K输出分辨率进行预训练。Sapiens2在姿态估计(mAP提升4点)、身体部位分割(mIoU提升24.3点)、法线估计(角度误差降低45.6%)等任务上刷新业界纪录,并拓展至点云贴图与反射率估计等新任务。代码地址:https://github.com/facebookresearch/sapiens2
数据估值对于提升大语言模型(LLMs)与视觉语言模型(VLMs)的透明度和问责制至关重要。然而,现有方法通常依赖梯度计算,导致其在数十亿参数模型上计算成本过高,且无法实现批量并行化。本研究提出For-Value——一种纯前向的数据估值框架,该框架在保持有效性的同时,实现了高效的批量可扩展价值估计。通过利用预训练LLMs/VLMs的表达能力,我们从理论上证明数据估值可通过最终隐藏层表征与输出层预测误差之间的对齐关系来捕捉。基于这一洞见,For-Value采用简单的闭式表达式,仅需单次前向传播即可完成数据价值计算,无需昂贵的反向传播过程,并能实现大规模批量高效计算。大量实验表明,For-Value在识别影响力数据和错误标注数据任务中达到或超越基于梯度的基线方法,同时实现了显著的效率提升。
大型语言模型智能体已从静态文本生成器迅速发展为能够执行复杂自主工作流程的动态系统。为提升系统可靠性,业界日益采用多智能体框架,通过分配专业化角色来实现自我反思与相互审计。虽然这种角色扮演机制有效利用了领域专家知识,但我们发现其同时会引发一种类人认知偏差——行动者-观察者不对称性。具体而言,担任行动者角色的智能体(在自我反思时)倾向于将失败归因于外部因素,而作为观察者的智能体(在相互审计时)却将相同错误归咎于内部缺陷。我们通过新构建的模糊失败基准测试量化这一现象,发现仅需切换观察视角即可在超过20%的案例中触发大多数模型的AOA效应。为抑制这种偏差,我们提出ReTAS(辩证推理法),该模型通过辩证对齐训练实现视角不变推理。通过将辩证思维链与群体相对策略优化相结合,ReTAS引导智能体将冲突观点合成为客观共识。实验表明,ReTAS能有效缓解归因不一致性,并在模糊情境中显著提升故障解决率。
大型语言模型(LLMs)作为面向客户的交互代理正日益普及,但由于其随机性多轮对话的特性,评估其可靠性仍具挑战。当前评估方案依赖对完整人机对话进行线性蒙特卡洛推演来估算成功率,但该方法存在计算效率低下的问题——需要反复生成相同的对话前缀,且难以捕捉由罕见用户行为引发的深层故障模式。 我们提出DIVERT(基于轨迹分支的多样性诱导评估框架),一种高效的、基于快照的、覆盖导向的用户模拟框架,用于系统化探索人机交互。该框架在关键决策点捕获完整的智能体-环境状态,并从这些快照恢复执行,实现共享对话前缀的复用,减少冗余计算。系统在每个决策节点通过具有针对性的多样性诱导用户响应进行分支,从而实现对替代交互路径的定向探索。 通过将评估重点聚焦于语义多样性且未被充分探索的对话轨迹,DIVERT在提升效率的同时扩大了覆盖范围。实证结果表明,与标准线性推演方案相比,该框架在单位计算量内能发现更多故障案例,同时扩展了可识别故障的任务范围。
镜头边界检测(SBD)旨在自动识别镜头切换并将视频分割为连贯的镜头单元。尽管该领域已有广泛研究,但现有先进方法常存在三大局限:生成的转场边界缺乏可解释性、易忽略细微但影响观感的断续点、且依赖噪声大多样性低的标注数据与过时评测基准。为缓解这些问题,我们提出OmniShotCut框架,将SBD重构为结构化关系预测问题,通过基于镜头查询的稠密视频Transformer联合估计镜头范围及其内部关系与跨镜头关系。为避免人工标注不精确,我们采用全合成转场生成管线,自动复现主要转场类型并生成带精确边界与参数化变体的数据。同时推出现代化广域评测基准OmniShotCutBench,支持全景化与诊断式评估。
大型语言模型(LLMs)仍易受基于优化的越狱攻击影响,这类攻击会利用模型内部的梯度结构。尽管稀疏自编码器(SAEs)被广泛用于可解释性研究,但其在鲁棒性方面的作用尚未得到充分探索。我们提出一项研究:在推理阶段将预训练的SAEs集成到Transformer残差流中,且不修改模型权重或阻断梯度。在涵盖四种模型架构(Gemma、LLaMA、Mistral、Qwen)和两种强白盒攻击(GCG、BEAST)及三项黑盒基准测试中,SAE增强模型相较于无防御基线实现了最高5倍的越狱成功率降低,并减少了跨模型攻击的可迁移性。参数消融实验表明:(i)L0稀疏度与攻击成功率存在单调剂量效应关系;(ii)存在层依赖的防御-效用权衡,其中中间层能平衡鲁棒性与正常性能。这些发现与表征瓶颈假说一致:稀疏投影重构了被越狱攻击利用的优化几何空间。
相机可控图像编辑旨在实现给定场景在不同相机姿态下的新视角合成,同时严格保持跨视角的几何一致性。然而,现有方法通常依赖碎片化的几何指导——例如尽管模型包含多个层级,却仅在表征层面注入点云数据,且主要基于处理离散视角映射的图像扩散模型。这两大局限共同导致连续相机运动下的几何漂移与结构退化。 我们发现,虽然利用视频模型能为相机可控编辑提供连续视角先验,但若几何指导仍呈碎片化,模型仍难以形成稳定的几何理解。为系统解决该问题,我们提出在共同决定生成效果的三个层级(表征、架构与损失函数)中注入统一的几何指导。 基于此,我们提出新型相机可控编辑框架UniGeo。具体而言:在表征层面,UniGeo采用帧解耦的几何参考注入机制,提供鲁棒的跨视角几何上下文;在架构层面,引入几何锚点注意力以实现多视角特征对齐;在损失函数层面,提出轨迹端点几何监督策略,显式强化目标视角的结构保真度。 在涵盖广角与受限相机运动场景的多个公开基准测试中,综合实验表明UniGeo在视觉质量与几何一致性方面均显著优于现有方法。
现有文档OCR技术主要针对纯文本或Markdown格式,舍弃了使LaTeX成为科学出版核心要素的结构化与可编译特性。我们研究将科学文献PDF进行页面级重建为可编译LaTeX的方法,并为此推出基准测试集TexOCR-Bench与大规模训练语料库TexOCR-Train。TexOCR-Bench采用多维度评估体系,同步检验转录保真度、结构忠实度及端到端可编译性。基于TexOCR-Train,我们通过监督微调(SFT)和基于可验证奖励的强化学习(RL)训练出20亿参数模型TexOCR,其中奖励机制源自直接保障可编译性与引用完整性的LaTeX单元测试。在TexOCR-Bench上对21个前沿模型的实验表明,现有系统常违反文档关键不变性——包括一致的章节结构、正确的浮动体定位及有效的标签-引用链接——这些缺陷会破坏编译可靠性及下游可用性。我们的分析进一步揭示,相较于单独使用SFT,结合可验证奖励的RL能持续提升模型性能,尤其在结构与编译指标上表现显著。
计算机辅助设计(CAD)模型由其构建历史定义:即编码设计意图的参数化方案。然而现有大规模三维数据集主要由边界表示(B-Rep)或网格构成,剥离了这种关键的过程化信息。为解决这一数据稀缺问题,我们提出Zero-to-CAD——一个可生成可执行CAD构建序列的可扩展框架。我们将合成过程构建为智能体搜索问题:通过将大语言模型(LLM)嵌入反馈驱动的CAD环境中,系统能利用工具和文档检索迭代生成、执行并验证代码,从而提升几何有效性与操作多样性。该智能体方法可生成约百万个可执行、可读、可编辑的CAD序列,涵盖超越草图拉伸工作流的丰富操作词汇。我们还发布了精选的10万个高质量模型子集,这些模型经筛选具有几何多样性。为验证数据集实用性,我们在合成数据上微调视觉语言模型,从多视角图像重建可编辑CAD程序,其表现优于GPT-5.2等强基线模型,有效实现了无需真实构建历史训练数据的序列生成能力。Zero-to-CAD弥合了几何规模与参数化可解释性之间的鸿沟,为新一代CAD人工智能提供了关键资源。
我们通过等效独立参数量来衡量额外循环层对循环(深度递归)语言模型的价值。基于循环次数r∈{1,2,4,8}的116次预训练实验(训练计算量跨度约50倍),我们拟合出联合缩放定律L = E + A·(N_once + r^φ N_rec)^{-α} + B·D^{-β},并得出新的循环等效指数φ=0.46。直观而言,φ值可揭示将模块循环r次在验证损失上是否等效于非循环模型的r个独立模块(完全等效,φ=1),或等效于无容量增益的单一模块重复运行(φ=0)。我们的φ=0.46处于中间状态,表明在相同训练计算量下,每增加一次循环都会可预测地提高验证损失。例如当r=4时,4.1亿参数的循环模型性能与5.8亿参数的非循环模型相当,但训练成本却相当于10亿参数的非循环模型。我们通过两个实验验证φ作为测量工具的有效性:截断反向传播使φ降至0.38,说明即使验证损失降低,循环机制在截断训练下仍未充分训练;而超连接技术将φ提升至0.65,实现了真正的容量增益。该方法适用于所有循环语言模型,能有效区分真正的循环改进与词元预算增益。
在服务高吞吐量Transformer语言模型时,需通过缓存键值对(KV)来避免自回归生成中的冗余计算。KV缓存的内存占用显著,严重影响服务成本。本研究旨在降低此类内存需求。近期工作主要沿时间轴通过压缩和淘汰机制缩减KV缓存,而我们认为深度维度为优化提供了正交且稳健的新路径。尽管已有研究表明每层全量缓存存在冗余,但实现跨层缓存共享仍面临实际挑战:现有方法通常导致吞吐量下降或首字延迟增加。本文论证了丢弃某些层缓存可实现无损高效优化,并提出一种简单训练方法——随机跨层注意力机制。训练过程中,各层随机选择关注自身KV状态或前驱层的状态。这种随机化过程使模型能适应不同的深度缓存共享策略,确保部署时对未知硬件约束的灵活性。评估表明,在预训练或微调阶段应用此方案,可使多种模型架构实现深度缓存共享。此外,在数据受限场景下,该方法对大型模型表现出类正则化效果,常在显著降低缓存内存占用的同时维持甚至提升模型性能。
大型语言模型(LLM)通过在推理阶段分配大量计算资源,生成冗长的推理轨迹来实现强劲的推理性能。尽管近期高效推理研究通过基于长度的奖励或剪枝来降低开销,但许多方法在后训练时使用的上下文窗口远小于基座模型训练长度,这一因素的影响尚未被系统性地分离研究。我们首先证明,仅采用标准GRPO(无任何长度感知目标)进行短上下文后训练,虽能实现显著的推理压缩,但会伴随训练动态日益不稳定和准确率下降的问题。为此,我们提出步骤级优势选择(SAS)方法,该方法在推理步骤层面运作:对正确推演中的低置信度步骤与验证失败推演中的高置信度步骤均赋予零优势值——此类失败往往源于截断或验证器问题而非推理错误。在多样化数学与通用推理基准测试中,SAS相较最强长度感知基线将平均Pass@1准确率提升0.86个百分点,同时将平均推理长度降低16.3%,实现了更优的准确率-效率权衡。
日常浏览网页的用户面临三大痛点:在杂乱页面中快速定位信息、完成不熟悉的多步骤操作、在干扰内容中保持专注。现有顶尖AI助手(如ChatGPT、Gemini、Claude)和浏览器代理(如OpenAI Operator、Browser Use)虽能回答问题并执行自动化操作,但其返回结果时未展示页面信息来源,迫使用户手动验证结果并盲目信任每个自动化步骤。我们推出PageGuide浏览器扩展,通过视觉叠层将LLM回答直接锚定在HTML DOM中,满足三大核心需求:(a)查找模式——在页面原位定位并高亮相关证据,使用户即时验证答案;(b)引导模式——分步展示操作指南(如修改密码),让用户能跟随指引自主完成操作;(c)屏蔽模式——隐藏干扰内容,允许用户自主决定是否屏蔽元素。用户研究(N=94)表明,PageGuide在所有模式下均优于无辅助浏览:屏蔽准确率提升26个百分点(相对提升86.7%),任务完成时间缩短70%;引导模式完成率提高30个百分点;查找模式降低手动搜索成本,Ctrl+F使用量减少80%,任务时间缩短19%。代码与演示详见:pageguide.github.io。
理解周围环境是自动驾驶与机器人感知的基础。在实际环境中,区分已知类别与未知物体至关重要,这正是异常分割的研究范畴。然而当前三维领域的研究仍显不足,现有方法大多直接套用二维视觉的后处理技术。为弥补这一空白,我们提出了一种直接在特征空间操作的高效方法,通过对正常类别的特征分布进行建模来约束异常样本。此外,目前唯一公开的三维激光雷达异常分割数据集仅包含简单场景和少量异常实例,且因传感器分辨率差异存在严重域差距。为消除这一差距,我们基于成熟的分割基准数据集构建了一套混合现实-虚拟的三维激光雷达异常分割数据集,其中包含多种分布外目标及复杂多变的环境。大量实验表明,我们的方法在现有真实数据集上达到最优性能,在新提出的混合数据集上取得竞争性结果,验证了方法的有效性与数据集的实用性。代码与数据集详见https://simom0.github.io/lido-page/。
智能文档处理流程从文档中提取结构化实体(表格、图像和文本),供知识库、检索增强生成和分析系统等下游系统使用。现有流程的持久性局限在于,其提取输出缺乏验证是否真实反映源文档内容的内在机制。模型内部置信度衡量的是推理确定性而非与文档的对应关系,提取错误会悄无声息地传递至下游系统。 我们提出"重建即验证"框架(RaV-IDP),将重建作为核心架构组件引入文档处理流程。每个实体被提取后,专用重建器会将提取结果重新渲染成可与原始文档区域对比的形式,比较器则对重建结果与原始文档截取区域进行保真度评分。这种保真度评分是 grounded、无标签的质量信号。当保真度低于实体类型特定阈值时,将触发结构化GPT-4.1视觉备用方案并重复验证循环。我们采用引导约束原则:比较器始终以原始文档区域为基准,而非提取结果,从而避免验证陷入循环论证。 我们进一步提出分阶段评估框架,为每个流程组件匹配相应的基准测试。该代码流程已公开于https://github.com/pritesh-2711/RaV-IDP,可供实验和使用。
人脸图像质量评估(FIQA)旨在评估人脸样本的识别效用,对构建可靠的人脸识别系统至关重要。现有方法需要计算成本高昂的流程,如多次前向传播、反向传播或额外训练,且近期研究才开始关注视觉Transformer的应用。最新研究表明,这类架构本质上是显著性学习器,其注意力模式天然编码了空间重要性。本文提出ATTN-FIQA这一无需训练的新方法,探究基于预训练视觉Transformer的人脸识别模型中,softmax归一化前的注意力分数能否作为质量指标。我们假设注意力强度本质编码质量信息:具有判别性面部特征的高质量图像可实现强烈的查询-键对齐,产生聚焦的高强度注意力模式;而质量退化的图像则生成分散的低强度模式。ATTN-FIQA从最终Transformer模块提取预softmax注意力矩阵,聚合所有图像块的多头注意力信息,通过简单平均计算图像级质量分数。该方法仅需对预训练模型进行单次前向传播,无需架构修改、反向传播或额外训练。通过在八个基准数据集和四个人脸识别模型上的综合评估,本研究表明基于注意力的质量分数能有效反映人脸图像质量,并提供空间可解释性,揭示哪些面部区域对质量判定贡献最大。
随着推理速度缓慢、人工评估成本高昂以及模型与基准测试的快速扩张,生成式AI模型的评估正变得日益耗费资源。我们提出ProEval——一种基于迁移学习的主动评估框架,能够高效估算模型性能并识别失败案例。该框架采用预训练的高斯过程作为性能评分函数的代理模型,将模型输入映射至错误严重程度或安全违规等指标。通过将性能估计构建为贝叶斯求积问题、将失败案例发现构建为超水平集采样问题,我们开发出具有不确定性感知的决策策略,可主动选择或合成高信息量的测试输入。理论上,我们证明了基于预训练高斯过程的贝叶斯求积估计量具有无偏性和有界性。在推理、安全对齐和分类基准测试上的大量实验表明,ProEval相比竞争基线方法显著提升效率:在达到与真实值误差1%以内的估计精度时,所需样本量减少8-65倍,同时在严格评估预算下能发现更多样化的失败案例。
大型语言模型智能体能否仅凭经验发现隐藏的安全目标?我们提出EPO-Safe(面向安全智能体的体验式提示优化框架),该框架通过LLM迭代生成行动计划、接收稀疏的二元危险警告,并经由反思演化出自然语言行为规范。与依赖丰富文本反馈(如编译器错误或详细环境响应)的标准LLM反思方法不同,EPO-Safe证明LLM能在结构化低维环境中从极度贫乏的信号进行安全推理:智能体从未观测到隐藏性能函数R*,仅能获得每个时间步指示动作是否安全的单比特信号。我们在五个AI安全网格世界(Leike等,2017)及五个文本场景模拟中评估该框架,这些场景中可见奖励R可能与R*存在偏差。EPO-Safe在1-2轮(5-15个回合)内即可发现安全行为,生成具有可读性的规范及对危险的正确解释性假设(如“X单元格具有方向性危险:从北侧进入是危险的”)。关键发现是,标准奖励驱动反思会主动削弱安全性:仅基于奖励反思的智能体会利用循环为奖励窃取行为辩护并加速该行为,这证明反思必须与专用安全通道结合才能发现隐藏约束。我们进一步评估了对噪声预警的鲁棒性:即使50%的非危险步骤产生误报,平均安全性能仅下降15%,但敏感性因环境而异,因为跨回合反思会自然过滤不一致信号。每个演化出的规范都可作为通过交互自主发现、具有可审计性的行为规则集,这与宪法AI(Bai等,2022)中由人类编写规则的方式形成鲜明对比。
视觉-语言-动作模型在构建通用机器人方面展现出巨大潜力,但仍面临二维图像预测与三维动作规划错位的困境。此外,这种视觉-动作耦合的训练方式限制了模型从大规模无动作标注的网络视频数据中学习的能力。为解决这些问题,我们提出DeFI创新框架,通过解耦视觉前向与逆向动力学预训练来利用各自数据源,实现视频生成与动作预测的分离。我们引入通用前向动力学模型(GFDM)——基于多样化的机器人与人类视频进行未来帧预测预训练,以及通用逆向动力学模型(GIDM)——通过自监督学习从无标注视频过渡中推断潜在动作。这些模型最终被整合到统一架构中,用于下游任务的端到端微调。通过这种方式,GFDM与GIDM既能各自发挥优势,又能协同增效。在CALVIN ABC-D和SimplerEnv上的大量实验表明,DeFI实现了最先进性能:在CALVIN上达到平均任务长度4.51,在SimplerEnv-Fractal基准测试中获得51.2%的成功率,真实场景部署成功率高达81.3%,显著超越现有方法。
基于Transformer的表格检索系统将结构化表格展平为令牌序列,导致即使表格语义保持不变,检索结果仍对序列化方式的选择高度敏感。我们发现语义等效的序列化格式(如csv、tsv、html、markdown和ddl)在多个基准测试和检索模型家族中会产生显著不同的嵌入表示和检索结果。为解决这种不稳定性,我们将序列化嵌入视为共享语义信号的带噪视图,并以其质心作为规范化目标表示。研究表明,质心平均法能抑制格式特异性变异,当不同表格的格式诱发偏移存在差异时,该方法可恢复不同序列化格式共有的语义内容。在MPNet、BGE-M3、ReasonIR和SPLADE的聚合成对比较中,质心表示法的综合表现优于所有单一格式。我们进一步在冻结编码器之上引入轻量级残差瓶颈适配器,该适配器将单序列化嵌入映射至质心目标,同时保持方差并实施协方差正则化。实验表明该适配器能提升多种稠密检索器的鲁棒性,但改进效果因模型而异且对稀疏词法检索作用有限。这些结果揭示了序列化敏感性是检索方差的主要来源,并证明了后验几何校正在实现序列化无关表格检索方面的潜力。相关代码、数据集和模型已开源:https://github.com/KBhandari11/Centroid-Aligned-Table-Retrieval。
工业维护环境日益依赖人工智能系统来协助操作人员理解设备行为、诊断故障及评估干预措施。尽管大语言模型(LLMs)能够实现流畅的自然语言交互,但已部署的维护助手常产生基于遥测数据支撑薄弱的通用解释,遗漏可验证的数据来源,且无法为反事实或面向行动的推理提供可检验的支持,这削弱了在安全关键场景中的可信度。我们提出IndustryAssetEQA——一种神经符号操作智能系统,该系统将时序遥测表征与故障模式影响分析知识图谱(FMEA-KG)相结合,实现对工业设备的具身问答(EQA)。我们在涵盖旋转机械、涡扇发动机、液压系统及信息物理生产系统四种工业设备类型的四个数据集上进行评估。与纯LLM基线相比,IndustryAssetEQA将结构有效性提升最高达0.51,反事实推理准确度提升最高达0.47,解释蕴涵度提升0.64,同时将专家评定的严重过度断言从28%降至2%(降幅约93%)。代码、数据集及FMEA-KG详见https://github.com/IBM/AssetOpsBench/tree/IndustryAssetEQA/IndustryAssetEQA。
近年来,基于可验证奖励的强化学习(RLVR)技术显著提升了视觉语言模型(VLM)的复杂推理能力。然而,其结果级监督过于粗略,难以诊断和修正推理链中的错误。为此,我们提出Perceval——一种可实现词元级错误定位的过程奖励模型(PRM),该模型能从模型响应中提取图像相关主张,并将其与图像中的视觉证据逐项比对,最终返回存在感知错误的论断。Perceval通过感知密集型监督训练数据进行训练,随后被集成至强化学习训练流程中以训练策略模型。具体而言,相较于传统GRPO采用序列级优势函数的方法,我们通过针对Perceval识别的幻觉片段施加惩罚来实现词元级优势函数,从而提供细粒度监督信号。除增强训练过程外,Perceval还可在推理阶段辅助VLM:通过截断模型响应中的错误片段,直接令模型重新生成响应或引导其对先前输出进行反思。该过程可重复多次以实现测试时扩展。实验表明,经RL训练的多类推理VLM在跨领域基准测试中均取得显著提升,印证了以感知为核心监督策略的普适性价值。在测试时扩展方面,该方法相较多数投票等策略也展现出持续的性能增益。我们的代码与数据已公开于https://github.com/RUCAIBox/Perceval。
人脸图像质量评估对于可靠的人脸识别系统至关重要,然而现有基于视觉Transformer的方法仅依赖最终层表征,忽略了网络中间深度捕获的质量相关信息。本文首次通过早期退出机制和分数融合策略,系统研究了ViT中间表征对人脸质量评估的贡献。我们系统分析了ViT-FIQA架构的全部十二个Transformer模块,证明不同深度能捕获差异化且互补的质量相关信息,这通过各网络层间不同的注意力模式与性能特征得到验证。我们提出一种分数融合框架,无需修改架构或额外训练即可整合多个Transformer模块的质量预测结果。早期退出分析揭示了最优的性能-效率权衡方案,在保持竞争力的性能同时实现显著的计算节省。通过使用四种人脸识别模型在八个基准数据集上的广泛评估,我们证明该融合策略优于单退出方案。所提出的质量融合方法采用深度加权平均策略,逐步赋予更深层Transformer模块更高权重,通过有效利用ViT中特征学习的层次化特性实现最佳质量评估性能。本研究挑战了"仅深层特征对人脸分析重要"的传统认知,揭示中间表征蕴含宝贵的质量评估信息。该框架为现实生物识别系统带来实用价值,可在资源受限条件下实现自适应计算,同时保持有竞争力的质量评估能力。
我们在MIMIC-CXR胸部X光片的二分类保险风险评估中,通过使用基于三种医学基础模型(MedSigLIP-448、RAD-DINO、ViT-patch32)冻结嵌入的量子支持向量机(QSVM),提供了无噪声模拟下的量子核优势证据。我们提出双层公平比较框架,两类分类器均采用相同的PCA-q特征。在第一层级(未调参QSVM vs 未调参线性SVM,双方C=1),QSVM在所有18组测试配置中均获得少数类F1优势(17组p<0.001,1组p<0.01)。经典线性核在所有量子比特数下均出现90-100%种子数的多数类预测崩溃,而QSVM始终保持有效召回率。在q=11(MedSigLIP-448平台中心)时,未经超参数调优的QSVM实现平均F1=0.343,显著优于经典方法的F1=0.050(F1增益+0.293,p<0.001)。在第二层级(未调参QSVM vs C值调优的RBF SVM)中,QSVM在全部七组测试配置中获胜(平均增益+0.068,最大增益+0.112)。特征谱分析表明量子核在q=11时有效秩达到69.80,远超线性核秩,且经典方法崩溃现象具有C不变性。全量子比特扫描揭示了模型间架构依赖的浓度起始现象。代码地址:https://github.com/sebasmos/qml-medimage
概念瓶颈模型(CBMs)通过人类可解释的概念进行预测,但其通常输出的点概念概率会混淆认知不确定性(可缩减的模型欠确定性)与偶然不确定性(不可缩减的输入模糊性)。这导致概念层面的不确定性难以解读,更重要的是难以据此采取行动。我们提出CREDENCE(可信集成概念估计框架),该CBM框架通过结构设计实现概念不确定性的分解。CREDENCE将每个概念表示为可信预测(概率区间),从多样化概念头的分歧中推导认知不确定性,并通过经训练以匹配标注者分歧的专用模糊性输出来估计偶然不确定性。由此产生的信号支持预设决策:自动化处理低不确定性案例,优先收集高认知不确定性案例的数据,将高偶然不确定性案例转交人工审核,并在两类不确定性均高时采取弃权策略。在多项任务中的实验表明,认知不确定性与预测误差呈正相关,而偶然不确定性则紧密跟踪标注者分歧,提供了超越误差关联的指导价值。项目实现代码详见:https://github.com/Tankiit/Credal_Sets/tree/ensemble-credal-cbm
大型语言模型(LLMs)正日益广泛应用于教育、客服和社交平台等角色驱动型场景中,这些模型被设定在与用户互动时采用特定角色身份。虽然角色设定能提升用户体验和参与度,但同时也引发了关于人格特征如何与性别偏见及刻板印象相互作用的担忧。本研究通过受控实验,对英语和印地语中角色驱动的故事生成进行分析:每个故事描绘印度职场人士在系统性变化的角色性别、职业身份以及HEXACO和黑暗三联征人格框架下,生成特定场景的产出物(如教案、报告、信件)。基于六种前沿LLMs生成的23,400个故事发现,人格特质与性别偏见的程度和方向均存在显著关联。尤其值得注意的是,与社会期望型HEXACO特质相比,黑暗三联征人格特质始终与更高程度的性别刻板印象表征相关,尽管这些关联因模型和语言而异。我们的研究结果表明,LLMs中的性别偏见并非静态存在,而是具有情境依赖性。这意味着现实应用中的角色设定系统可能带来不平等的表征危害,在生成的教育、职业或社交内容中强化性别刻板印象。