每日精選AI研究論文及翻譯
我們推出Segment Anything Model(SAM)3,這是一個基於概念提示的統一模型,能夠在圖像和影片中檢測、分割和追蹤物體。概念提示定義為簡短名詞短語(如「黃色校車」)、圖像範例或兩者組合。可提示概念分割(PCS)接收此類提示,並返回所有匹配物體實例的分割遮罩與唯一識別碼。為推進PCS技術,我們構建了可擴展的數據引擎,生成包含400萬個獨特概念標籤的高質量數據集,涵蓋圖像與影片中的困難負樣本。我們的模型由共享單一骨幹網路的圖像級檢測器和基於記憶的影片追蹤器組成,透過獨立的存在性預測頭解耦識別與定位任務,從而提升檢測精度。SAM 3在圖像與影片PCS任務中的準確率較現有系統提升一倍,並強化了前代SAM在視覺分割任務的性能。我們將開源SAM 3模型及用於可提示概念分割的新基準「Segment Anything with Concepts(SA-Co)」。
當前關於能動視覺推理的研究雖能實現深度多模態理解,但主要聚焦於圖像處理工具,尚未拓展至更通用的能動模型。本研究重新審視地理定位任務,該任務不僅需要細膩的視覺定位能力,還需在推理過程中透過網路搜索驗證或修正假設。由於現有地理定位基準未能滿足高解析度影像需求及深度能動推理的定位挑戰,我們構建了GeoBench基準數據集,包含全球各地的照片與全景圖,以及不同城市的衛星影像子集,以嚴謹評估能動模型的地理定位能力。我們同時提出GeoVista模型,該能動模型無縫整合工具調用於推理循環中,包含可放大關注區域的圖像縮放工具與檢索網路資訊的搜索工具。我們為其開發完整訓練流程,包含用於學習推理模式與工具使用先驗的冷啟動監督微調階段,以及強化推理能力的強化學習階段。透過分層獎勵機制利用多層級地理資訊,提升整體地理定位效能。實驗結果顯示,GeoVista在地理定位任務上大幅超越其他開源能動模型,在多數指標上達到與Gemini-2.5-flash、GPT-5等閉源模型相當的表現。
內在維度(ID)已成為現代大型語言模型分析的重要工具,應用於訓練動態、規模化規律及資料集結構的研究,然而其文本決定因素仍待深入探索。我們透過交叉編碼器分析、語言特徵與稀疏自編碼器(SAE),首次提出將ID錨定於可解釋文本特性的綜合研究。本工作確立三項關鍵發現:首先,ID與基於熵的指標具互補性——控制文本長度後,兩者無相關性,ID能捕捉正交於預測品質的幾何複雜度。其次,ID呈現穩健的文類分層現象:科學論述呈現低ID值(約8),百科類內容為中等ID值(約9),而創意/評論寫作則具高ID值(約10.5),此模式在所有測試模型中一致。這顯示當代LLM將科學文本視為「表徵簡單」的類型,而小說則需要更多表徵自由度。第三,透過SAE技術,我們識別出因果特徵:科學信號(正式語調、報告模板、統計數據)會降低ID;人性化信號(個人化表達、情感、敘事性)則提升ID。定向調控實驗證實這些影響具因果性。因此對當代模型而言,科學寫作相對「簡單」,而小說、評論及情感表達則會增加表徵自由度。我們的多面向分析為ID的正確應用及基於ID研究成果的嚴謹解讀提供了實務指引。
近期,大型推理模型的進展激發了將此類能力擴展至多模態領域的廣泛興趣。然而,儘管在視覺推理方面取得了顯著進展,缺乏透明且可重現的數據整理與訓練策略仍是可擴展研究的主要障礙。在本研究中,我們提出了OpenMMReasoner,這是一個完全透明的兩階段多模態推理方案,涵蓋了監督微調(SFT)和強化學習(RL)。在SFT階段,我們構建了一個包含87.4萬個樣本的冷啟動數據集,並進行了嚴格的逐步驗證,為推理能力奠定了堅實基礎。隨後的RL階段利用了一個涵蓋多領域的7.4萬個樣本數據集,進一步磨礪並穩定這些能力,從而實現了更為穩健且高效的學習過程。廣泛的評估表明,我們的訓練方案不僅超越了強基線,還凸顯了數據質量和訓練設計在塑造多模態推理性能中的關鍵作用。值得注意的是,我們的方法在九個多模態推理基準測試中,相較於Qwen2.5-VL-7B-Instruct基線,實現了11.6%的提升,為未來大規模多模態推理研究奠定了堅實的實證基礎。我們已在https://github.com/EvolvingLMMs-Lab/OpenMMReasoner開源了所有代碼、流程和數據。
我們推出RynnVLA-002——一個統一的視覺-語言-行動模型與世界模型。該世界模型利用行動與視覺輸入來預測未來的圖像狀態,通過學習環境的底層物理規律來優化行動生成。反之,視覺-語言-行動模型則根據圖像觀測生成後續行動,不僅強化了視覺理解能力,也為世界模型的圖像生成提供支持。RynnVLA-002的統一框架實現了環境動態與行動規劃的聯合學習。實驗表明,RynnVLA-002的性能超越單獨的視覺-語言-行動模型和世界模型,展現出兩者間的相互增強效應。我們在仿真環境與真實機器人任務中對RynnVLA-002進行評估:在未經預訓練的情況下,該模型於LIBERO仿真基準測試中達成97.4%的成功率;而在真實世界的LeRobot實驗中,其整合的世界模型更使整體成功率提升50%。
近期基於大型語言模型的智慧體技術展現出生成類人回應的顯著潛力,然而在複雜環境中維持長期互動仍面臨挑戰,主要癥結在於情境連貫性與動態個人化能力的限制。現有記憶系統多依賴檢索前的語義分群機制,此做法可能忽略語義無關但關鍵的用戶資訊,並引入檢索噪聲。本報告提出新型記憶框架O-Mem的初步設計,該框架基於主動用戶畫像技術,能從用戶與智慧體的主動互動中動態提取並更新用戶特徵與事件紀錄。O-Mem支援人物屬性與主題關聯情境的分層檢索,從而實現更具適應性與連貫性的個人化回應。在公開基準測試中,O-Mem於LoCoMo數據集達到51.67%的準確率,較先前最先進的LangMem提升近3%;在PERSONAMEM數據集達到62.99%的準確率,較先前最先進的A-Mmem提升3.5%。相較於既有記憶框架,O-Mem同時提升了令牌處理與互動回應的時效性。本研究為未來開發高效且類人的個人化人工智慧助理開闢了嶄新方向。
理解富含文字的影片需要反覆檢視細小、短暫的文本線索,然而現有影片問答模型多依賴固定畫面的單次感知,導致在細粒度證據上出現幻覺與失誤。受人類暫停播放、放大關鍵區域並重複閱讀的啟發,我們提出Video-R4(透過視覺反芻強化文本影片推理),這是一種能執行視覺反芻的影片推理大型多模態模型:透過迭代選擇畫面、放大資訊密集區域、重新編碼檢索像素並更新推理狀態。我們建構了兩個包含可執行反芻軌跡的資料集:用於監督式學習的Video-R4-CoT-17k與用於強化學習的Video-R4-RL-30k。提出多階段反芻學習框架,透過監督微調和基於GRPO的強化學習,逐步微調70億參數模型以掌握原子視覺操作與混合視覺操作。Video-R4-7B在M4-ViteVQA達到最先進成果,並能泛用至多頁文件問答、簡報問答及通用影片問答,證實迭代反芻是實現像素級多模態推理的有效範式。
我們推出WorldGen系統,該系統能夠直接根據文字提示自動創建大規模互動式3D世界。我們的方法將自然語言描述轉換為可穿越、具完整紋理的環境,這些環境能立即在標準遊戲引擎中進行探索或編輯。透過結合大型語言模型驅動的場景佈局推理、程序化生成、基於擴散模型的3D生成以及物件感知的場景分解技術,WorldGen在創作意圖與功能性虛擬空間之間搭建橋樑,使創作者無需手動建模或具備專業3D知識即可設計出連貫且可導航的世界。本系統採用完全模組化設計,支援對佈局、比例與風格的細粒度控制,所生成的世界兼具幾何一致性、視覺豐富性與即時渲染效率。這項工作標誌著我們向可規模化的生成式世界建構邁進一步,推動3D生成式AI在遊戲、模擬及沉浸式社交環境等應用的技術邊界。
本研究提出PARROT(說服與順從強度輸出真相評測框架),這是一個專注於魯棒性的評估體系,旨在量化大型語言模型在權威說服壓力下產生的準確度退化現象——即過度順從行為。PARROT框架具備三大特點:(i)採用雙盲評估,通過對比中立問題與權威性錯誤表述的同一問題來分離因果效應;(ii)基於對數似然校準追蹤技術,量化模型對正確答案與強加錯誤答案的信心偏移;(iii)透過八態行為分類法系統性歸納失效模式(如:魯棒正確、諂媚性順從、錯誤強化、頑固錯誤、自我修正等)。我們採用1,302道MMLU風格多選題與13個領域的專業權威話術模板,對22個模型進行測試。結果顯示顯著異質性:先進模型(如GPT-5、GPT-4.1、Claude Sonnet 4.5)展現低「順從率」(≤11%,GPT-5僅4%)與微小準確度損失,而老舊/小規模模型出現嚴重認知崩塌(GPT-4達80%,Qwen 2.5-1.5B高達94%)。風險不僅限於答案改變:薄弱模型會降低對正確答案的信心,同時提升對強制錯誤答案的置信度。儘管國際法與領域專業知識表現出高度脆弱性,基礎數學則相對具有韌性。據此我們主張,在現實部署中應將「抗過度順從壓力」列為與準確性、危害規避和隱私保護同等重要的核心安全目標。
分步驟繪畫教程對於學習藝術技法至關重要,但現有影片資源(如YouTube)缺乏互動性與個性化。儘管近期生成模型在藝術圖像合成方面取得進展,但其難以在不同媒介間泛化,且常出現時間或結構上的不一致性,阻礙了對人類創作流程的真實重現。為此,我們提出一個統一框架,通過語義驅動的風格控制機制實現多媒介繪畫過程生成:將多種媒介嵌入擴散模型的條件空間,並採用跨媒介風格增強技術。該方法能實現跨風格的紋理一致性演變與過程遷移。反向繪畫訓練策略進一步確保生成過程流暢且符合人類創作規律。我們還構建了大型真實繪畫過程數據集,並在跨媒介一致性、時間連貫性與最終圖像保真度方面進行評估,於LPIPS、DINO和CLIP指標上取得優異結果。最後,我們提出的感知距離輪廓(PDP)曲線定量建模創作序列(構圖、色塊鋪陳與細節精修),精準對應人類藝術創作進程。
尽管视觉语言模型(VLM)取得了显著成功,但其在复杂视觉任务上的表现常受制于"视觉处理瓶颈":即在长序列生成过程中容易丧失视觉证据的锚定,并表现出情境化视觉经验的缺失。受人类认知记忆理论中短期视觉主导记忆与长期语义主导记忆区分的启发,我们提出VisMem——一种认知对齐框架,通过动态潜在视觉记忆为VLM赋能,包含用于细粒度感知保持的短期模块和用于抽象语义整合的长期模块。这些记忆在推理过程中被无缝调用,使VLM能够在整个思考与生成过程中同时保持感知保真度与语义一致性。在涵盖理解、推理和生成的多样化视觉基准测试中,大量实验表明VisMem相较于原始模型实现了11.8%的平均性能提升,并优于所有对比模型,由此确立了潜在空间记忆增强的新范式。代码将发布于:https://github.com/YU-deep/VisMem.git。
视觉-语言-动作(VLA)模型的最新进展表明,视觉信号能有效补充稀疏的动作监督。然而,直接让VLA模型预测高维视觉状态会分散模型容量并导致训练成本过高,而将视觉状态压缩为更紧凑的监督信号又不可避免地引发信息瓶颈。此外,现有方法因忽视语言监督而常存在理解与推理能力不足的问题。本文提出Mantis框架,通过解耦视觉预测(DVF)机制解决上述问题。该框架采用元查询与扩散Transformer(DiT)头相结合的方式,将视觉预测从主干网络中分离。通过残差连接向DiT提供当前视觉状态后,简单的下一状态预测目标可使元查询自动捕捉描述视觉轨迹的潜在动作,从而强化显式动作的学习。这种解耦机制减轻了VLA主干网络的负担,使其能通过语言监督保持理解与推理能力。实验表明,在人类操作视频、机器人演示数据和图文对上预训练后,Mantis在LIBERO基准微调后取得96.7%的成功率,在超越强基线的同时展现出高收敛速度。真实场景评估显示,Mantis在指令遵循能力、未知指令泛化性和推理能力方面均优于主流开源VLA模型π_{0.5}。相关代码与权重已开源以支持社区研究。
我们致力于解决稀疏输入视角下的多视图图像编辑任务,其中输入可视为从不同视角捕捉场景的图像集合。该任务的目标是根据文本指令修改场景,同时保持所有视角间的一致性。基于逐场景神经场或时序注意力机制的现有方法在此设定下表现不佳,常产生伪影和不连贯的编辑效果。我们提出InstructMix2Mix(I-Mix2Mix)框架,通过将2D扩散模型的编辑能力蒸馏至预训练的多视图扩散模型,利用其数据驱动的3D先验实现跨视图一致性。核心创新在于用多视图扩散学生模型取代传统分数蒸馏采样(SDS)中的神经场整合器,这需要三项新颖的适配:跨时间步的渐进式学生模型更新、防止性能退化的特殊教师噪声调度器,以及无需额外成本即可增强跨视图一致性的注意力机制改进。实验表明,I-Mix2Mix在保持单帧高质量编辑的同时,显著提升了多视图一致性。
随着多模态模型的规模化发展,视觉理解与推理能力取得了显著突破,但实际应用需求呼唤更小巧高效的系统。本研究对多模态模型智能缩放的规律进行系统性分析,重点探究大型语言模型(LLM)容量缩减如何影响多模态能力。初步发现揭示了一个有趣现象:LLM的降维处理对视觉能力的削弱程度远超其对语言模型固有能力的继承。我们进一步探究这种性能下降究竟源于预期的视觉推理能力衰减,还是更根本的感知能力丧失。通过分离LLM降维对感知能力的影响,发现性能仍会急剧下滑,其下降幅度往往与推理能力受损程度相当甚至更甚。为突破这一瓶颈,我们提出视觉提取调优技术,通过显式训练使模型能够跨任务持续提取与指令相关的视觉细节。基于这些提取的视觉信息,再采用逐步推理机制生成答案。这两大核心组件共同构成了我们的"提取+思考"(Extract+Think)方法论,为该领域的效率与性能设立了新标杆。
基因組序列建模面臨兩大未解難題:不同區域的信息密度差異懸殊,且缺乏明確定義的最小詞彙單元。現有方法依賴四種鹼基或獨立設計的DNA分詞器,結合樸素的掩碼語言建模預訓練,往往難以適應基因序列的複雜度變化。本文通過引入令牌合併技術,提出一種能聯合優化動態基因分詞器與潛在Transformer的層次式架構,並配備上下文感知的預訓練任務。在網絡結構方面,分詞模塊通過堆疊多層具局部窗口約束的可微分令牌合併塊,將相鄰鹼基自動組合成詞彙;隨後潛在編碼器通過全局注意力塊捕獲這些合併詞彙的上下文語義。通過對稱部署潛在解碼器與局部解碼器,MergeDNA採用雙重預訓練任務:合併令牌重構任務同步訓練動態分詞模塊並自適應篩選重要令牌,而自適應掩碼令牌建模任務則學習預測被篩選的令牌以捕捉信息密集型內容。大量實驗表明,MergeDNA在三個主流DNA基準測試及多個多組學任務中,無論是微調還是零樣本評估均表現優異,其性能超越典型分詞方法與大規模DNA基礎模型。
視覺-語言-動作模型在通用機器人任務中展現潛力,但在需要細粒度表徵的時空一致性操作任務中仍面臨挑戰。現有方法通常將三維座標嵌入視覺表徵以提升動作的空間精度,但這些方法難以實現對動作執行的時序一致性控制。本研究提出具備四維感知能力的通用模型VLA-4D,用於實現時空協同的機器人操作。我們的模型基於兩項核心設計:1)四維感知視覺表徵:通過提取視覺特徵,將一維時間嵌入三維座標形成四維嵌入,並經由交叉注意力機制融合為統一視覺表徵;2)時空動作表徵:在傳統空間動作表徵基礎上引入時間維度以實現時空規劃,並將多模態表徵對齊至大語言模型進行時空動作預測。在此統一框架下,所設計的視覺與動作表徵共同確保機器人操作實現空間平滑性與時間連貫性。此外,我們擴展了VLA數據集並添加時序動作標註以微調模型。大量實驗結果驗證了本方法在多種機器人操作任務中的優越性。
同行評審是科學出版的基石,在ICLR等頂級機器學習會議中亦是如此。隨著投稿量持續增長,深入理解評審過程的本質與動態對於提升效率、效果及已發表論文質量至關重要。本文針對ICLR 2024與2025年的同行評審過程展開大規模分析,聚焦反駁環節前後的評分變化及審稿人與作者間的互動。我們系統考察了評審分數、作者-審稿人參與度、評審提交的時間規律以及共同審稿人的影響效應。通過量化分析結合基於大語言模型的評審文本與反駁討論分類,我們識別出各評分區間論文的常見優缺點,並發現與分數變化關聯最顯著的反駁策略趨勢。研究結果表明:初始分數與共同審稿人的評分是反駁期間分數變動的最強預測因子,這反映出審稿人間存在一定程度的相互影響。反駁機制對於臨界論文的結果改善具有重要價值,深思熟慮的作者回應能實質性改變審稿人觀點。更廣泛而言,本研究為改進同行評審提供了實證依據,既可指導作者制定有效反駁策略,亦有助學術社群設計更公平高效的評審流程。相關代碼與分數變動數據已開源於:https://github.com/papercopilot/iclr-insights。
随着大语言模型(LLM)的快速发展,AI智能体在科学任务中的表现日益成熟,涵盖假设生成、实验设计乃至论文撰写等环节。此类智能体系统常被称为"AI科学家"。然而,现有AI科学家大多将科学发现简化为独立的搜索或优化问题,忽视了科学研究本质上是社会性协作行为这一事实。现实世界的科学活动依赖于由协作机制、贡献归属、同行评议及结构化科学知识网络构成的复杂科研基础设施。由于缺乏对这些关键维度的建模,现有系统难以建立真正的研究生态系统或与人类科学界深度互动。为弥补这一缺陷,我们提出OmniScientist框架,将人类科研的底层机制显式编码至AI科学工作流中。该框架不仅实现了从数据基础、文献综述、研究构思、实验自动化、科学写作到同行评审的端到端自动化,还通过模拟人类科学系统提供全方位基础设施支持,包括:(1)基于引文网络与概念关联的结构化知识体系;(2)支持多智能体无缝协作及人类研究者参与的开放式科研协议(OSP);(3)基于双盲用户投票与Elo排序的开放评估平台(ScienceArena)。这一基础设施使智能体既能理解并利用人类知识体系,又能实现协作共演,最终培育出可持续、可扩展的创新生态系统。
视觉自回归(VAR)模型近期因其创新的"下一尺度"预测范式而备受关注,相较于传统多步自回归(AR)模型和扩散模型,在推理效率与图像质量方面均展现出显著优势。然而,尽管VAR模型效率出众,却常面临多样性坍缩问题——即输出多样性降低的现象,这与少步数蒸馏扩散模型中观察到的情况类似。本文提出DiverseVAR,一种无需额外训练即可恢复VAR模型生成多样性的简易有效方案。我们的分析发现,特征图中的关键成分是早期尺度多样性形成的主导因素。通过抑制模型输入中的关键成分并增强模型输出的该成分,DiverseVAR在保持高保真合成的同时,有效释放了VAR模型的内在生成潜力。实证结果表明,我们的方法能以可忽略的性能影响显著提升生成多样性。代码已公开于https://github.com/wangtong627/DiverseVAR。
訓練違禁品檢測模型需要大量X射線安檢圖像,但此類圖像的採集與標註工作耗時費力。為解決數據不足問題,X射線安檢圖像合成方法通過圖像組合技術擴充數據集。然而現有方法主要採用兩階段流程:首階段需進行費時費力的前景提取,次階段再進行圖像合成。此流程會引入不可避免的額外人力成本且效率低下。本文提出基於文本到圖像生成技術的單階段X射線安檢圖像合成框架Xsyn,該框架通過兩項有效策略提升合成圖像的實用性:交叉注意力優化策略利用擴散模型的交叉注意力圖來優化邊界框標註;背景遮擋建模策略在潛空間顯式建模背景遮擋以增強成像複雜度。據我們所知,相較現有方法,Xsyn是首個無需額外人力成本即可實現高質量X射線安檢圖像合成的方案。實驗表明,本方法以1.2% mAP提升優於所有現有方法,且生成的合成圖像能有效提升各類X射線安檢數據集與檢測器的違禁品檢測性能。代碼已開源於https://github.com/pILLOW-1/Xsyn/。
近期视频生成方法日益依赖规划中间控制信号(如物体轨迹)来提升时间连贯性与运动保真度。然而这些方法多采用单次规划方案(通常仅适用于简单运动)或需要多次调用视频生成器的迭代优化方案,导致计算成本高昂。为突破这些限制,我们提出SketchVerify——一种基于草图验证的无训练规划框架,通过在生成完整视频前引入测试时采样与验证循环,以更具动态连贯性的轨迹(即物理合理且符合指令的运动)提升运动规划质量。给定提示词与参考图像,本方法会预测多个候选运动方案,并利用视觉语言验证器从语义指令对齐度和物理合理性两个维度进行联合评估排序。为高效评分候选运动方案,我们将每条轨迹通过静态背景上的物体合成渲染为轻量级视频草图,在保持相当性能的同时规避了昂贵的重复性扩散合成需求。通过迭代优化运动方案直至获得满意结果,最终将其输入轨迹条件生成器进行合成。在WorldModelBench与PhyWorldBench上的实验表明,相较于基线模型,本方法在运动质量、物理真实感与长时一致性方面均有显著提升,且计算效率大幅提高。消融实验进一步证明,增加轨迹候选方案数量能持续提升整体性能。
随着视觉语言模型(VLMs)的滥用日益严重,服务商已部署包括对齐调优、系统提示和内容审核在内的多重防护机制。然而,这些防御措施在面对对抗攻击时的实际鲁棒性仍有待深入探究。本文提出多维度攻击框架(MFA),通过系统化测试揭示GPT-4o、Gemini-Pro和Llama-4等主流防护型VLM的通用安全漏洞。MFA的核心组件是注意力转移攻击(ATA),该技术将恶意指令隐藏于具有竞争目标的元任务中。基于奖励破解理论,我们为攻击成功提供了理论解释。为提升跨模型迁移性,我们进一步结合轻量级迁移增强算法与简单重复策略,无需模型特定微调即可协同绕过输入级与输出级过滤器。实证研究表明,针对某一视觉编码器优化的对抗图像可广泛迁移至未见过的VLM,表明共享视觉表征会引发跨模型安全漏洞。总体而言,MFA实现了58.5%的成功率,持续优于现有方法。在最新商用模型上,MFA达到52.8%的成功率,较次优攻击方法提升34%。这些结果挑战了现有防御机制的感知鲁棒性,并揭示现代VLM持续存在的安全缺陷。代码地址:https://github.com/cure-lab/MultiFacetedAttack
我们首次在纯AMD硬件上开展了大规模专家混合模型(MoE)预训练研究,同时利用配备Pollara互联技术的MI300X GPU。本研究提炼出系统与模型设计的实用指南。在系统层面,我们提供了完整的集群与网络特性分析:针对Pollara互联环境下不同消息大小和GPU数量的所有核心集合通信操作(全归约、规约散射、全收集、广播)进行了微基准测试。据我们所知,这是该规模下的首次全面测试。我们进一步提供了MI300X在核心规模与内存带宽方面的微基准数据,为模型设计提供参考。在模型层面,我们引入并应用了针对MI300X优化的Transformer规模配置规则,涵盖注意力机制与MLP模块,同时论证了能协同优化训练吞吐量与推理延迟的MoE宽度配置。我们深入阐述了训练技术栈,包括常被忽视的容错机制和检查点重塑等实用工具,并详细介绍了训练方案。此外,我们首次披露模型架构与基础模型ZAYA1(激活参数7.6亿,总参数83亿的MoE模型)的预览,该模型将在后续论文中持续优化。ZAYA1基础版在同等乃至更大规模下,其性能可与Qwen3-4B、Gemma3-12B等领先基础模型相媲美,并在推理、数学和代码基准测试中超越Llama-3-8B、OLMoE等模型。这些成果共同证明AMD硬件、网络及软件栈已臻成熟,足以支持具有竞争力的大规模预训练任务。
显著性图谱在深度学习的视觉解释中应用广泛,但关于其设计初衷与多样化用户查询的匹配度,学界始终缺乏基本共识。这种模糊性严重制约了解释方法的有效评估与实际应用。为弥补这一空白,我们提出参照系×粒度(RFxG)分类法——一个基于原则的概念框架,该框架沿两个基本维度对显著性解释进行系统化组织:参照系维度区分单点式解释("为何有此预测?")与对比式解释("为何是该结果而非替代项?");粒度维度涵盖从细粒度类别级(如"为何是哈士奇?")到粗粒度组群级(如"为何是犬科?")的解释层级。通过RFxG视角,我们揭示了现有评估指标的关键局限:这些指标过度侧重单点式忠实度,却忽视了对比推理与语义粒度。为系统评估解释质量在RFxG双维度的表现,我们提出四项新颖的忠实度度量指标。我们的综合评估框架将该指标体系应用于十种前沿显著性方法、四种模型架构及三个数据集。通过推动以用户意图为导向的评估范式转型,本研究不仅为开发忠于模型内在行为的视觉解释奠定了理论基础,更提供了关键实践工具,使解释结果能真正契合人类认知与探究活动的复杂性。