每日精选AI研究论文及翻译
我们推出第三代分割一切模型(SAM 3),这是一个基于概念提示的统一模型,能够检测、分割并追踪图像和视频中的目标对象。我们将概念提示定义为简短名词短语(如"黄色校车")、图像示例或二者的组合。可提示概念分割(PCS)技术接收此类提示后,可为所有匹配的目标实例返回分割掩码和唯一标识符。为推进PCS技术发展,我们构建了可扩展的数据引擎,生成包含400万个独特概念标签的高质量数据集,涵盖图像和视频中的困难负样本。我们的模型由共享单一骨干网的图像级检测器和基于记忆的视频追踪器组成,通过独立的存在性检测头实现识别与定位解耦,从而提升检测精度。SAM 3在图像和视频PCS任务中的准确率均达到现有系统的两倍,并提升了前代SAM在视觉分割任务中的性能。我们开源了SAM 3模型及全新的概念化分割一切基准(SA-Co),用于可提示概念分割研究。
当前面向智能体的视觉推理研究虽能实现深度多模态理解,但主要聚焦于图像处理工具,尚未向通用型智能体模型拓展。本研究重新审视地理定位任务,该任务不仅需要精细的视觉定位能力,还需借助网络搜索在推理过程中验证或修正假设。针对现有地理定位基准数据集无法满足高分辨率图像需求及深度智能体推理的定位挑战,我们构建了GeoBench基准数据集,包含全球范围的普通照片与全景图像,以及不同城市的卫星图像子集,以系统评估智能体模型的地理定位能力。同时提出GeoVista智能体模型,该模型将工具调用无缝集成于推理循环中,包括用于放大感兴趣区域的图像缩放工具和检索相关网络信息的搜索工具。我们为其开发了完整训练流程:首先通过冷启动监督微调阶段学习推理模式与工具使用先验,再通过强化学习阶段进一步提升推理能力。采用分层奖励机制以利用多层次地理信息,显著提升整体地理定位性能。实验结果表明,GeoVista在地理定位任务上大幅超越其他开源智能体模型,在多数指标上达到与Gemini-2.5-flash、GPT-5等闭源模型相当的性能。
本征维度(ID)是现代大语言模型分析的重要工具,为训练动态、缩放行为和数据集结构的研究提供依据,但其文本决定因素仍未得到充分探索。我们通过交叉编码器分析、语言特征和稀疏自编码器(SAE),首次开展了将ID与可解释文本属性相联系的系统性研究。本研究确立了三个关键发现:第一,ID与基于熵的指标具有互补性——在控制文本长度后,两者无相关性,ID捕获的是与预测质量正交的几何复杂度;第二,ID呈现稳定的体裁分层现象——在所有测试模型中,科学论述呈现低ID值(约8),百科全书类内容呈中等ID值(约9),而创意/观点类写作则显示高ID值(约10.5),这表明当代大语言模型认为科学文本"表征简单",而小说类文本需要更多自由度;第三,通过SAE我们识别出因果特征——科学信号(正式语体、报告模板、统计数据)会降低ID,人性化信号(个性化、情感表达、叙事性)则会提升ID。定向实验证实这些影响具有因果性。因此对当代模型而言,科学写作相对"简单",而小说、观点及情感类内容则增加了表征自由度。我们的多维度分析为ID的正确使用及基于ID结果的有效解读提供了实践指导。
近期,大规模推理模型的进展激发了将其能力扩展至多模态领域的广泛兴趣。然而,尽管在视觉推理方面取得了显著进步,缺乏透明且可复现的数据整理与训练策略仍是阻碍可扩展研究的主要障碍。本研究提出了OpenMMReasoner,一种完全透明的两阶段多模态推理方案,涵盖监督微调(SFT)和强化学习(RL)两个阶段。在SFT阶段,我们构建了一个包含87.4万样本的冷启动数据集,并进行了严格的逐步验证,为推理能力奠定了坚实基础。随后的RL阶段则利用一个跨多个领域的7.4万样本数据集,进一步磨砺并稳定这些能力,从而实现了更为稳健且高效的学习过程。大量评估表明,我们的训练方案不仅超越了强基线模型,还凸显了数据质量与训练设计在塑造多模态推理性能中的关键作用。值得注意的是,在九大多模态推理基准测试中,我们的方法相较于Qwen2.5-VL-7B-Instruct基线模型实现了11.6%的性能提升,为未来大规模多模态推理研究奠定了坚实的实证基础。我们已在https://github.com/EvolvingLMMs-Lab/OpenMMReasoner开源了所有代码、流程及数据。
我们推出RynnVLA-002——一种统一的视觉-语言-动作模型与世界模型。该世界模型利用动作与视觉输入预测未来图像状态,通过习得环境底层物理规律来优化动作生成;而VLA模型则从图像观测中生成后续动作,既增强视觉理解能力,又支撑世界模型的图像生成。RynnVLA-002的统一框架实现了环境动态特性与行动规划的联合学习。实验表明,RynnVLA-002的性能超越独立的VLA和世界模型,印证了二者的相互增强效应。我们在仿真环境与真实机器人任务中对该模型进行评估:在LIBERO仿真基准测试中,RynnVLA-002无需预训练即达成97.4%的成功率;而在真实世界的LeRobot实验中,其集成世界模型将整体成功率提升50%。
近期基于大语言模型的智能体技术虽在生成类人应答方面展现出显著潜力,但在复杂环境中维持长期交互仍面临挑战,主要源于情境一致性与动态个性化能力的局限。现有记忆系统多依赖检索前的语义分组机制,易忽略语义无关却关键的用户信息,并引入检索噪声。本报告提出新型记忆框架O-Mem的初步设计,该框架基于主动用户画像,能动态提取并更新用户与智能体主动交互中产生的特征与事件记录。O-Mem支持人物属性与话题相关情境的分层检索,从而实现更具适应性与连贯性的个性化应答。在公开基准测试中,O-Mem在LoCoMo上达到51.67%的准确率,较此前最优模型LangMem提升近3%;在PERSONAMEM上获得62.99%的准确率,较前最优模型A-Mem提升3.5%。与现有记忆框架相比,O-Mem还显著提升了令牌处理效率与交互响应速度。本研究为未来开发高效类人的个性化AI助手开辟了新的方向。
理解富含文本的视频需要反复审视微小、瞬态的文本线索。然而大多数视频问答模型依赖固定帧的单次感知,导致在细粒度证据上产生幻觉和错误。受人类暂停播放、放大关键区域并重读的启发,我们提出Video-R4(基于视觉反刍的文本视频推理增强框架),这是一种通过视觉反刍进行推理的视频大语言模型:迭代选择帧、放大信息区域、重新编码检索像素并更新推理状态。我们构建了两个包含可执行反刍轨迹的数据集:用于监督训练的Video-R4-CoT-17k和用于强化学习的Video-R4-RL-30k。提出多阶段反刍学习框架,通过监督微调和基于GRPO的强化学习,逐步微调70亿参数大模型以掌握原子视觉操作与混合操作。Video-R4-7B在M4-ViteVQA上达到最先进水平,并能泛化至多页文档问答、幻灯片问答及通用视频问答,证明迭代式反刍是实现像素级多模态推理的有效范式。
我们推出WorldGen系统,该系统能够直接从文本提示自动创建大规模交互式3D世界。我们的方法将自然语言描述转化为可遍历的完整贴图环境,这些环境可立即在标准游戏引擎中进行探索或编辑。通过结合大语言模型驱动的场景布局推理、程序化生成、基于扩散的3D生成以及对象感知的场景解构技术,WorldGen在创意构想与功能性虚拟空间之间架起桥梁,使创作者无需手动建模或具备专业3D知识即可设计出连贯、可导航的世界。该系统采用完全模块化架构,支持对布局、比例和风格的细粒度控制,生成的世界具有几何一致性、视觉丰富性,并能实现实时高效渲染。这项研究标志着向可大规模生成的可访问世界构建迈出关键一步,推动了3D生成式AI在游戏、模拟和沉浸式社交环境等应用领域的前沿进展。
本研究提出PARROT(输出真实性说服力与一致性鲁棒性评估)框架,该鲁棒性导向的框架旨在衡量大语言模型(LLMs)中因权威性和说服性社会压力导致的准确性退化现象——即过度迎合(sycophancy)行为。PARROT通过三重机制实现精准测量:(i)采用双盲评估法,通过对比同一问题的中性版本与权威性错误版本以分离因果效应;(ii)基于对数似然的校准追踪技术量化模型向正确答案与强加错误答案的信心偏移;(iii)采用八态行为分类法系统化归类失效模式(如鲁棒正确、迎合性认同、强化错误、顽固错误、自我修正等)。我们使用1,302道MMLU风格多选题及13个领域的领域权威模板对22个模型进行评估。研究发现存在显著异质性:先进模型(如GPT-5、GPT-4.1、Claude Sonnet 4.5)展现出较低的"盲从率"(≤11%,GPT-5为4%)和极小的准确性损失,而老旧/小规模模型则出现严重的认知坍塌(GPT-4达80%,Qwen 2.5-1.5B达94%)。风险不仅限于答案变更:弱势模型会降低对正确答案的信心,同时提升对强加错误答案的置信度。尽管国际法领域和领域级全球知识表现出高度脆弱性,但基础数学领域相对具有韧性。因此我们主张,应将"抗过度拟合压力"目标与准确性、伤害规避和隐私保护并列为现实世界安全部署的核心指标。
分步绘画教程对于学习艺术技法至关重要,但现有视频资源(如YouTube)缺乏互动性与个性化。尽管近期生成模型在艺术图像合成方面取得进展,但其难以跨媒介泛化,且常出现时序或结构不一致的问题,阻碍了对人类创作流程的忠实复现。为此,我们提出一个统一的多媒介绘画过程生成框架,通过语义驱动的风格控制机制,将多种媒介嵌入扩散模型的条件空间,并采用跨媒介风格增强技术。该方法能实现跨风格的纹理一致性演变与过程迁移,结合逆向绘画训练策略进一步确保生成过程流畅且符合人类创作逻辑。我们还构建了大规模真实绘画过程数据集,从跨媒介一致性、时序连贯性和最终图像保真度三个维度进行评估,在LPIPS、DINO和CLIP指标上取得优异结果。最后,我们提出的感知距离轮廓(PDP)曲线量化模拟了构图、色块铺陈与细节精修等创作序列,精准对应人类艺术创作进程。
尽管视觉语言模型(VLMs)取得了显著成功,但其在复杂视觉任务上的表现常受制于"视觉处理瓶颈":即在长序列生成过程中容易丧失对视觉依据的锚定,并表现出情境化视觉经验的缺失。受人类认知记忆理论中短期视觉主导记忆与长期语义主导记忆区分的启发,我们提出VisMem——一个认知对齐框架,通过动态潜在视觉记忆为VLMs赋能,其中短期模块负责细粒度感知保持,长期模块专司抽象语义巩固。这些记忆在推理过程中被无缝调用,使VLM能够在思维与生成过程中同时保持感知保真度与语义一致性。在涵盖理解、推理与生成的多样化视觉基准测试中,大量实验表明VisMem相较原始模型实现了11.8%的平均性能提升,且优于所有对比模型,由此确立了潜在空间记忆增强的新范式。代码已开源:https://github.com/YU-deep/VisMem.git。
近期视觉-语言-动作(VLA)模型的研究进展表明,视觉信号能有效补充稀疏的动作监督。然而,直接让VLA预测高维视觉状态会分散模型容量并导致训练成本激增,而将视觉状态压缩为紧凑监督信号又不可避免地引发信息瓶颈。此外,现有方法因忽视语言监督而常存在理解与推理能力不足的问题。本文提出新型框架Mantis,其核心是解耦视觉预测(DVF)机制,旨在解决上述问题。具体而言,Mantis通过元查询与扩散Transformer(DiT)头的组合,将视觉预测从主干网络中解耦。借助残差连接向DiT提供当前视觉状态,简单的下一状态预测目标使元查询自动捕捉刻画视觉轨迹的潜在动作,从而增强显式动作的学习。这种解耦机制减轻了VLA主干网络的负担,使其能通过语言监督保持理解与推理能力。实验表明,在人类操作视频、机器人演示数据和图文对上预训练后,Mantis在LIBERO基准微调后达到96.7%的成功率,超越强基线模型且收敛速度显著。真实场景评估证明Mantis在指令遵循能力、对未见指令的泛化性及推理能力上均优于领先的开源VLA模型π_{0.5》。相关代码与权重已开源以支持社区研究。
我们致力于解决稀疏输入视角下的多视图图像编辑任务,其中输入可视为从不同视角捕捉场景的图像集合。该任务的目标是根据文本指令修改场景,同时保持所有视角间的一致性。现有基于单场景神经场或时序注意力机制的方法在此设定下表现不佳,常产生伪影和不连贯的编辑效果。我们提出InstructMix2Mix(I-Mix2Mix)框架,通过将2D扩散模型的编辑能力蒸馏至预训练的多视图扩散模型,利用其数据驱动的3D先验实现跨视图一致性。核心创新在于用多视图扩散学生模型取代传统分数蒸馏采样中的神经场整合器,这需要三项新适配:跨时间步的渐进式学生模型更新、防止性能退化的专用教师噪声调度器,以及无需额外成本即可增强跨视图一致性的注意力机制改进。实验表明,I-Mix2Mix在保持单帧高质量编辑的同时,显著提升了多视图一致性。
多模态模型的规模化发展带来了视觉理解与推理能力的显著进步,但实际应用需求呼唤更小巧高效的系统。本研究对多模态模型智能缩放的规律进行了系统性分析,重点探究大型语言模型(LLM)容量缩减如何影响多模态能力。初步发现揭示了一个有趣现象:LLM的规模缩减对视觉能力的影响远大于对LLM固有能力的继承。我们进一步探究这种性能下降究竟源于预期的视觉推理能力衰减,还是更根本的感知能力丧失。通过分离LLM缩放对感知能力的影响,发现性能仍会急剧下降,其降幅往往与推理能力的衰退相当甚至更大。针对这一瓶颈,我们提出视觉提取调优方法,通过显式训练使模型能够跨任务持续提取与指令相关的视觉细节。基于这些提取的视觉信息,我们采用分步推理机制生成答案。这两大核心组件共同构成了"提取+思考"(Extract+Think)方法论,为该领域的效率与性能设立了新标杆。
基因组序列建模面临两大未解难题:不同区域的信息密度差异显著,且缺乏明确定义的最小词汇单元。现有方法依赖四种碱基或独立设计的DNA分词器,结合简单的掩码语言建模预训练,往往难以适应基因组序列的复杂度变化。本文通过引入令牌合并技术,提出一种联合优化动态基因组分词器与潜在Transformer的层次化架构,并配备上下文感知的预训练任务。在网络结构方面,分词模块通过堆叠多层具有局部窗口约束的可微分令牌合并块,将相邻碱基自动组词;潜在编码器则通过全注意力块捕捉这些合并词汇的全局上下文。通过对称部署潜在解码器与局部解码器,MergeDNA采用双重预训练任务:合并令牌重建任务同步训练动态分词模块并自适应筛选重要令牌,而自适应掩码令牌建模任务则学习预测这些被筛选的令牌以捕捉信息密集型内容。大量实验表明,MergeDNA在三大主流DNA基准测试和多项多组学任务中,无论经过微调还是零样本评估,均显著超越典型分词方法及大规模DNA基础模型。
视觉-语言-动作模型在通用机器人任务中展现出潜力,但在需要细粒度表征的时空连贯操作方面仍面临挑战。现有方法通常将三维位置嵌入视觉表征以提升动作的空间精度,但这些方法难以实现动作执行的时序连贯控制。本研究提出VLA-4D——一种具备四维感知能力的通用VLA模型,用于实现时空连贯的机器人操作。我们的模型基于两个核心设计:1)四维感知视觉表征。通过提取视觉特征,将一维时间嵌入三维位置形成四维嵌入,并借助交叉注意力机制融合为统一视觉表征;2)时空动作表征。我们在传统空间动作表征基础上引入时序信息以实现时空规划,并将多模态表征对齐至大语言模型中进行时空动作预测。在该统一框架下,所设计的视觉与动作表征共同确保机器人操作实现空间平滑性和时序连贯性。此外,我们扩展了VLA数据集的时序动作标注以微调模型。大量实验验证了该方法在多种机器人操作任务中的优越性。
同行评审是科学出版的基石,在ICLR等顶级机器学习会议中尤为重要。随着投稿量持续增长,深入理解评审过程的本质与动态对提升效率、优化效果及保障论文质量至关重要。本研究对ICLR 2024与2025年的大规模评审数据展开分析,聚焦反驳环节前后的评分变化及审稿人与作者互动模式。通过量化分析结合基于大语言模型的评审意见与反驳讨论文本分类,我们系统考察了评分分布、作者-审稿人参与度、评审提交时间规律以及共同审稿人影响力效应。研究发现:初始评分与共同审稿人评价是反驳期间分数变动的关键预测因子,表明审稿人之间存在相互影响;反驳环节对临界评分论文具有显著积极作用,深思熟虑的作者回应能有效扭转审稿人观点。更广泛而言,本研究为改进同行评审机制提供了实证依据,既指导作者制定有效反驳策略,也助力学术社区设计更公平高效的评审体系。相关代码与评分变化数据已开源:https://github.com/papercopilot/iclr-insights。
随着大语言模型(LLM)的快速发展,AI智能体在科学任务中的表现日益精进,涵盖假设生成、实验设计乃至论文撰写等环节。这类智能体系统常被称为"AI科学家"。然而,现有AI科学家大多将科学发现简化为独立的搜索或优化问题,忽视了科学研究本质上是社会性协作活动这一事实。现实世界的科学运作依赖于由协作机制、贡献归属、同行评议及结构化科学知识网络构成的复杂科研基础设施。由于缺乏对这些关键维度的建模,现有系统难以建立真正的研究生态系统或与人类科学界深度互动。为弥补这一缺陷,我们提出OmniScientist框架,将人类科研的底层机制显式编码至AI科学工作流中。该框架不仅实现从数据基础、文献综述、研究构思、实验自动化、科学写作到同行评审的端到端自动化,更通过模拟人类科学系统提供全方位基础设施支持,包括:(1)基于引文网络与概念关联的结构化知识体系;(2)支持多智能体无缝协作及人类研究者参与的开放式研究协议(OSP);(3)基于双盲用户投票与Elo评级机制的开放评估平台(ScienceArena)。这一基础设施使智能体既能理解运用人类知识体系,又可实现协同进化,最终构建可持续、可扩展的创新生态系统。
视觉自回归(VAR)模型凭借其创新的跨尺度预测范式,近期受到广泛关注。相较于传统多步自回归(AR)模型和扩散模型,该模型在推理效率与图像质量方面均展现出显著优势。然而,尽管VAR模型效率出众,却常面临多样性坍缩问题——即输出多样性降低的现象,这与少步蒸馏扩散模型中观察到的情况类似。本文提出DiverseVAR方法,通过一种简单而有效的策略,在不需额外训练的前提下恢复VAR模型的生成多样性。我们的分析表明,特征图中的关键成分是早期尺度下多样性形成的主导因素。通过抑制模型输入中的关键成分并放大模型输出中的该成分,DiverseVAR在保持高保真合成的同时,有效释放了VAR模型的内在生成潜力。实验结果表明,该方法仅以可忽略的性能影响为代价,即可显著提升生成多样性。代码已开源于https://github.com/wangtong627/DiverseVAR。
训练违禁品检测模型需要大量X射线安检图像,但采集和标注这些图像耗时费力。为解决数据不足问题,X射线安检图像合成方法通过图像组合来扩增数据集。然而现有方法主要采用两阶段流程:第一阶段需进行费时费力的前景提取,第二阶段再进行图像合成。这种流程会引入不可避免的额外人力成本,效率较低。本文提出基于文本到图像生成的单阶段X射线安检图像合成框架Xsyn,通过两种有效策略提升合成图像的可用性。交叉注意力优化策略利用扩散模型的交叉注意力图优化边界框标注;背景遮挡建模策略在隐空间显式建模背景遮挡以增强成像复杂度。据我们所知,相较于现有方法,Xsyn首次实现了无需额外人力成本的高质量X射线安检图像合成。实验表明,本方法以1.2%的mAP提升优于所有现有方法,且生成的合成图像有助于提升多种X射线安检数据集和检测器的违禁品检测性能。代码已开源:https://github.com/pILLOW-1/Xsyn/。
近期视频生成方法日益依赖规划中间控制信号(如物体轨迹)来提升时间连贯性与运动保真度。然而这些方法多采用单次规划方案,通常仅能生成简单运动,或需多次调用视频生成器进行迭代优化的方案,导致计算成本高昂。为突破这些局限,我们提出SketchVerify——一种基于草图验证的无训练规划框架,通过在完整视频生成前引入测试时采样与验证循环,以更具动态连贯性(即物理合理且符合指令的运动轨迹)的运动规划提升生成质量。给定提示词与参考图像,本方法首先生成多个候选运动规划,再通过视觉语言验证器对其进行联合评估排序,该验证器同时考量指令语义对齐度与物理合理性。为高效评分候选运动轨迹,我们将每条轨迹合成为静态背景上的轻量级视频草图,此举在保持性能相当的同时规避了昂贵的重复扩散合成过程。通过迭代优化运动规划直至获得满意方案,最终将其输入轨迹条件生成器完成合成。在WorldModelBench与PhyWorldBench上的实验表明,相较于基线模型,本方法在运动质量、物理真实感与长程一致性方面均有显著提升,且计算效率大幅优化。消融实验进一步证实,增加轨迹候选数量能持续提升整体性能。
随着视觉语言模型(VLMs)的滥用日益严重,服务商已部署包括对齐调优、系统提示与内容审核在内的多重防护机制。然而,这些防御措施在面对对抗攻击时的实际鲁棒性仍缺乏深入探索。本文提出多维度攻击框架(MFA),通过系统化测试揭示GPT-4o、Gemini-Pro和Llama-4等主流防护型VLMs的通用安全漏洞。MFA的核心组件是注意力转移攻击(ATA),该技术通过将有害指令隐藏于具有竞争目标的元任务中实现攻击。我们基于奖励破解理论给出了此种攻击成功的理论解释。为提升跨模型迁移性,我们进一步结合轻量级迁移增强算法与简单重复策略,无需模型特定微调即可联合绕过输入级与输出级过滤器。实验表明,针对某一视觉编码器优化的对抗图像可广泛迁移至未知VLMs,证明共享视觉表征会引发跨模型安全漏洞。总体而言,MFA达到58.5%的成功率,持续优于现有方法;在最新商用模型上更以52.8%的成功率超越次优攻击34个百分点。这些结果挑战了当前防御机制的感知鲁棒性,并揭示出现代VLMs持续存在的安全缺陷。代码地址:https://github.com/cure-lab/MultiFacetedAttack
我们首次在纯AMD硬件上开展大规模专家混合模型预训练研究,同时采用配备Pollara互联技术的MI300X GPU。本研究提炼出系统与模型设计的实用指南。在系统层面,我们提供了完整的集群与网络特性分析:针对Pollara平台上不同消息规模和GPU数量的所有核心集合通信操作(全归约、规约散射、全收集、广播)进行微基准测试。据我们所知,这是该领域的首次大规模测试。我们进一步提供了MI300X在核心规模与内存带宽方面的微基准数据,为模型设计提供依据。在模型层面,我们引入并应用了针对MI300X优化的Transformer规模配置规则,涵盖注意力机制与MLP模块,同时论证了能协同优化训练吞吐与推理延迟的MoE宽度配置。我们深入阐述了训练技术栈,包括常被忽视的容错机制与检查点重塑等实用工具,并详细介绍了训练方案。此外还预览了我们的模型架构与基础模型——ZAYA1基础版(激活参数7.6亿,总参数83亿的MoE模型),该模型将在后续论文中持续优化。ZAYA1基础版在同等及更大规模下,其性能可比肩Qwen3-4B、Gemma3-12B等领先基础模型,并在推理、数学和代码基准测试中超越Llama-3-8B、OLMoE等模型。这些成果共同证明AMD硬件、网络及软件栈已足够成熟和优化,能够支撑具有竞争力的大规模预训练任务。
显著性图谱虽被广泛用于深度学习的可视化解释,但其预期目标与多样化用户需求之间始终缺乏共识。这种模糊性阻碍了解释方法的有效评估与实际应用。我们通过引入"参考框架×粒度"(RFxG)分类法来弥合这一鸿沟,该原则性概念框架沿两个基本维度组织显著性解释:参考框架维度区分逐点式解释("为何有此预测?")与对比式解释("为何是这个而非其他?");粒度维度涵盖从细粒度类别级(如"为何是哈士奇?")到粗粒度组群级(如"为何是犬科?")的解释层次。借助RFxG视角,我们揭示了现有评估指标的关键局限——这些指标过度侧重逐点忠实性,却忽视了对比推理与语义粒度。为系统评估RFxG双维度的解释质量,我们提出四项新颖的忠实度指标。该综合评估框架将指标应用于十种前沿显著性方法、四种模型架构及三个数据集。通过推动向用户意图驱动的评估范式转变,本研究不仅为开发可视化解释奠定了概念基础,更提供了实用工具,确保解释结果既忠实于模型内在行为,又能与人类认知和探究的复杂性实现有意义对接。