每日精選AI研究論文及翻譯
現有的深度估計方法本質上受限於離散影像網格上的深度預測。這種表示方式限制了其向任意輸出解析度的擴展性,並阻礙了幾何細節的恢復。本文提出InfiniDepth方法,將深度表示為神經隱式場。通過簡單而有效的局部隱式解碼器,我們能夠在連續二維座標上查詢深度,實現任意解析度與細粒度深度估計。為更好評估方法性能,我們從五款不同遊戲中精選建構了高品質4K合成基準數據集,涵蓋具有豐富幾何與外觀細節的多樣化場景。大量實驗表明,InfiniDepth在相對深度與度量深度估計任務中,於合成與真實場景基準測試上均達到最先進性能,尤其在精細細節區域表現卓越。該方法還能在大幅視角變化下提升新視角合成任務的表現,生成更少空洞與偽影的高品質結果。
說話人歸屬時間戳轉寫技術旨在精準轉錄語音內容並標定每位說話人的發言時段,這對會議轉錄尤為重要。現有系統鮮少採用端到端架構,且受制於有限的上下文窗口、薄弱的長程說話人記憶能力以及無法輸出時間戳等侷限。為突破這些限制,我們提出MOSS Transcribe Diarize——一個統一的模態大語言模型,能以端到端模式聯合實現說話人歸屬與時間戳轉寫。該模型基於海量真實場景數據訓練,具備128k上下文窗口可處理長達90分鐘的輸入,展現出優異的擴展性與強健的泛化能力。在全面評估中,其於多個公開及內部基準測試上均超越現有頂尖商業系統。
近期文字轉影片擴散模型雖能生成引人入勝的影片序列,卻始終處於「靜默」狀態——缺失了音訊所提供的語義、情感與氛圍線索。我們推出 LTX-2,這款開源基礎模型能以統一方式生成高品質、時間同步的視聽內容。LTX-2 採用非對稱雙流 Transformer 架構,包含 140 億參數的影片流與 50 億參數的音訊流,通過雙向視聽交叉注意力層進行耦合。該架構融合時間位置嵌入與跨模態 AdaLN 技術,實現共享時間步條件調控,在確保統一視聽模型高效訓練與推理的同時,為影片生成分配比音訊生成更強的運算能力。我們採用多語言文字編碼器以擴展提示詞理解範圍,並引入模態感知的無分類器引導機制(modality-CFG),顯著提升視聽對齊效果與可控性。LTX-2 不僅能生成語音,更可產出豐富連貫的音軌,精準跟隨每個場景的角色、環境、風格與情感變化——甚至包含自然的背景音與擬聲音效。評估結果顯示,本模型在開源系統中實現了視聽品質與提示詞遵循度的最先進水準,同時以遠低於專有模型的計算成本與推理時間,達成與之媲美的生成效果。所有模型權重與程式碼均已公開釋出。
我們推出SciEvalKit——一個統一的基準測試工具包,專為評估跨科學領域及任務能力的AI模型而設計。有別於通用評估平台,SciEvalKit聚焦於科學智能的核心能力,包括科學多模態感知、科學多模態推理、科學多模態理解、科學符號推理、科學程式碼生成、科學假說生成與科學知識理解。該工具支援六大科學領域,涵蓋物理、化學乃至天文學與材料科學。SciEvalKit以專家級科學基準為基礎,所有任務均精選自真實領域專屬數據集,確保反映實際科學挑戰。工具包採用靈活可擴展的評估管線,支援跨模型與數據集的批量評估、自訂模型與數據集整合,並提供透明、可重現且可比較的結果。透過銜接能力導向評估與學科多樣性,SciEvalKit為新一代科學基礎模型與智能代理提供了標準化且可客製化的評估基礎架構。本工具包已開源並持續維護,以促進AI4Science領域的社群驅動發展與進步。
儘管統一多模態模型(UMMs)在跨模態理解方面取得了顯著成功,但其利用內部知識實現高質量生成的能力仍存在明顯不足。我們將這種差異形式化定義為「傳導性失語」現象——模型能準確解讀多模態輸入,卻難以將這種理解轉化為忠實且可控的合成結果。為解決此問題,我們提出UniCorn,一種簡潔優雅的自我提升框架,無需外部數據或教師監督。通過將單一UMM劃分為提議者、求解者與評判者三個協作角色,UniCorn藉由自我對弈生成高質量互動,並採用認知模式重構將潛在理解提煉為顯式生成信號。為驗證多模態連貫性的修復效果,我們引入基於「文本→圖像→文本」重建循環的UniCycle基準測試。大量實驗表明,UniCorn在六個通用圖像生成基準上相較基礎模型實現全面且顯著的提升:在TIIF(73.8)、DPG(86.8)、CompBench(88.5)及UniCycle上達到SOTA性能,同時在WISE和OneIG上分別取得+5.0和+6.5的大幅增益。這些結果凸顯了我們的方法在保持強健理解能力的同時顯著增強文生圖生成效果,證明了全自監督優化框架對於統一多模態智能的可擴展性。
我們推出NitroGen——這款專為通用遊戲智能體設計的視覺行動基礎模型,其訓練數據涵蓋逾千款遊戲、總計四萬小時的遊戲影片。該模型融合三大核心要素:1)透過自動化擷取公開遊戲影片中的玩家操作,建構出網路級規模的影片行動數據集;2)具備跨遊戲泛化能力評估功能的多遊戲基準環境;3)採用大規模行為克隆訓練的統一視覺行動模型。NitroGen在多元遊戲場景中展現卓越能力,包括3D動作遊戲的戰鬥遭遇、2D平台遊戲的高精度操控,以及程序生成世界的探索任務。該模型能有效遷移至未見過的遊戲,相較於從零開始訓練的模型,任務成功率最高可提升52%。我們公開數據集、評估套件與模型權重,以推動通用具身智能體的研究進展。
視覺-語言-動作(VLA)模型通過大規模預訓練實現了強大的泛化能力,但實際部署除廣泛通用性外還需具備專家級的任務熟練度。現有VLA模型的後訓練方法通常為離線、單機器人或任務專用模式,限制了有效的同策略適應與從現實交互中進行可擴展學習的能力。我們提出可擴展線上後訓練(SOP)系統,支持通用型VLA模型在物理世界中直接進行線上分散式多任務後訓練。SOP通過閉環架構緊密耦合執行與學習:機器人集群持續將同策略經驗與人為干預信號流式傳輸至中央雲端學習器,並非同步接收更新策略。此設計支持即時同策略修正,通過平行部署擴展經驗收集規模,並在適應過程中保持通用性。SOP對後訓練算法的選擇具不可知性,我們以交互式模仿學習(HG-DAgger)和強化學習(RECAP)兩種方式實現該系統。在包括布料摺疊、箱子組裝和商品補貨等多種現實操作任務中,SOP顯著提升了大型預訓練VLA模型的性能,同時維持跨任務的單一共享策略。僅需數小時現實交互即可實現有效後訓練,且性能提升與機器人集群規模呈近線性增長。這些結果表明,將線上學習與集群級部署緊密結合,對於在物理世界中實現通用機器人策略的高效、可靠且可擴展的後訓練至關重要。
影片風格化作為影片生成模型的重要下游任務,目前尚未得到充分探索。其輸入風格條件通常包含文字、風格圖像與風格化首幀三種類型,每種條件各具優勢:文字描述更具靈活性,風格圖像能提供精確的視覺錨點,而風格化首幀則使長影片風格化成為可能。然而現有方法大多侷限於單一風格條件類型,限制了應用範圍。此外,高品質數據集的匱乏導致風格不一致與時間閃爍問題。為解決這些侷限性,我們提出DreamStyle——一個統一的影片風格化框架,支援(1)文字引導、(2)風格圖像引導及(3)首幀引導的影片風格化,並配備精心設計的數據篩選流程以獲取高品質配對影片數據。DreamStyle基於原始圖像轉影片模型構建,採用具備詞元特定上矩陣的低秩自適應訓練技術,有效降低不同條件詞元間的混淆。定性與定量評估均表明,DreamStyle能勝任三類影片風格化任務,並在風格一致性和影片品質方面超越現有方法。
我們推出 MiMo-V2-Flash,這是一款採用專家混合架構的模型,總參數量達 309B,活躍參數為 15B,專為實現快速、強勁的推理能力與智能體功能而設計。該模型採用混合注意力架構,以 5:1 的混合比例交錯使用滑動窗口注意力與全局注意力,滑動窗口大小為 128 個詞元。模型通過多詞元預測技術在 27 兆詞元上進行預訓練,原生支援 32k 上下文長度並可擴展至 256k。為高效擴展訓練後計算效能,MiMo-V2-Flash 引入創新的多教師在線策略蒸餾框架:由領域專精教師模型(如經大規模強化學習訓練)提供密集的詞元級獎勵信號,使學生模型能精準掌握教師專長。相較 DeepSeek-V3.2 與 Kimi-K2 等頂尖開源模型,MiMo-V2-Flash 在總參數量僅為其 1/2 與 1/3 的情況下仍具備競爭力。推理階段通過將多詞元預測機制改造成推測解碼的草稿模型,配合三層多詞元預測結構可實現最高 3.6 的平均接受長度與 2.6 倍解碼加速。我們將開源模型權重與三層多詞元預測權重,以促進開放研究與社群協作。
儘管已取得顯著進展,多模態大型語言模型在視覺數學問題解決方面仍面臨挑戰。近期研究雖認識到視覺感知是數學視覺推理的瓶頸,但其解決方案僅限於改進視覺輸入的提取與解讀,且均忽略了一個關鍵問題:提取的視覺線索是否被忠實整合並有效運用於後續推理。受此啟發,我們提出CogFlow——一個受認知科學啟發的新型三階段框架,通過增設知識內化階段顯式模擬人類推理的層次化流程:感知⇒內化⇒推理。順應此層次化流程,我們對各階段進行整體增強:設計協同視覺獎勵機制,在參數空間與語義空間共同提升符號與圖表視覺信息提取能力;在內化階段引入知識內化獎勵模型,確保提取的視覺線索能忠實銜接後續推理;此外,提出視覺門控策略優化算法,強化推理過程與視覺知識的錨定,防止模型產生表面連貫但缺乏視覺依據的捷徑推理。我們還貢獻了新數據集MathCog用於模型訓練,包含超過12萬個具備高質量感知-推理對齊標註的樣本。在常用視覺數學推理基準上的綜合實驗與分析驗證了CogFlow的優越性。
数字孪生作为物理系统的精确数字化表征,通过人工智能技术的融合,已从被动仿真工具演变为具有智能性与自主性的实体。本文提出统一四阶段框架,系统阐述人工智能在数字孪生全生命周期(建模、镜像、干预、自主管理)的融合路径。通过整合现有技术与实践,我们提炼出贯穿数字孪生生命周期的四阶段人工智能融合框架:(1)基于物理机理与物理信息的人工智能方法构建实体映射模型;(2)通过实时同步技术实现物理系统的数字化镜像;(3)借助预测建模、异常检测与优化策略对实体系统进行干预;(4)通过大语言模型、基础模型与智能体实现自主管理。我们分析了物理建模与数据驱动学习的协同机制,重点阐释了物理系统建模从传统数值求解器向物理信息模型与基础模型的范式转变。进一步探讨生成式人工智能(包括大语言模型与生成式世界模型)如何将数字孪生升级为具备推理、交互与创造性场景生成能力的主动式自进化认知系统。通过对医疗保健、航空航天、智能制造、机器人技术、智慧城市等11个应用领域的跨域综述,我们指出了在可扩展性、可解释性与可信度方面的共性挑战,并为构建负责任的人工智能驱动型数字孪生系统指明发展方向。
尽管大型语言模型在复杂数学问题上表现优异,但在计数任务中仍存在系统性局限。这一问题的根源在于Transformer架构的特性——计数操作需跨层执行,而网络深度限制导致较大计数问题的精度下降。为解决此局限,我们受人类系统2认知过程启发,提出一种简单的测试时策略:将大型计数任务分解为模型可可靠解决的独立子问题。通过观察性分析和因果中介分析,我们评估了该策略并探究其内在机制。机理分析表明:潜在计数结果被计算并存储在各部分的最终项表征中,通过专用注意力头传递至中间步骤,最终在汇总阶段生成总数。实验结果显示,该策略能使LLM突破架构限制,在大规模计数任务中实现高精度。本研究不仅揭示了LLM中系统2计数的内在机制,更为理解和改进其推理行为提供了可推广的方法论。
我们推出WebGym——迄今为止规模最大的开源视觉网页智能体训练环境。真实网站具有非稳态和多样性特征,使得人工或小规模任务集难以支撑稳健的策略学习。WebGym包含近30万个任务,基于量规评估体系覆盖多样化的真实网站及难度等级。我们采用简易强化学习方案训练智能体:通过智能体自身交互轨迹进行训练,并以任务奖励作为学习反馈。为实现强化学习的规模化扩展,我们专门为网页智能体开发了高吞吐量异步轨迹采样系统,使WebGym的轨迹采样速度较原始实现提升4-5倍。其次,我们通过拓展任务集的广度、深度和规模,实现了持续的性能提升。在WebGym上对强基线视觉语言模型Qwen-3-VL-8B-Instruct进行微调后,其在分布外测试集上的成功率从26.2%提升至42.9%,显著优于基于GPT-4o(27.1%)和GPT-5-Thinking(29.8%)等专有模型的智能体。这一提升具有重大意义,因为与多数现有视觉网页智能体研究不同,我们的测试集完全由训练阶段未接触的网站任务构成。
我们推出Muses——首个在前馈式范式中实现免训练的奇幻3D生物生成方法。现有方法依赖部件感知优化、人工组装或2D图像生成,由于复杂的部件级操控挑战及域外生成能力有限,常产生不真实或不协调的3D资源。相较之下,Muses利用3D骨架(生物形态的基础表征)来显式且合理地组合多元元素。该骨架基础将3D内容创作形式化为包含设计、组合与生成的结构感知流程。Muses首先通过图约束推理构建具有协调布局与尺度的创意组合3D骨架,随后在结构化潜空间内引导基于体素的装配流程,整合来自不同物体的区域。最终在骨架约束下实施图像引导的外观建模,为组装形态生成风格统一且和谐一致的纹理。大量实验表明,Muses在视觉保真度、文本描述对齐度方面达到业界领先水平,并展现出灵活的3D物体编辑潜力。项目页面:https://luhexiao.github.io/Muses.github.io/。
多模态大语言模型(MLLMs)在关键应用中的快速集成正日益受到持续安全漏洞的阻碍。然而,现有的红队测试基准往往碎片化,仅限于单轮文本交互,且缺乏系统化评估所需的可扩展性。为此,我们推出OpenRT——一个统一、模块化且高吞吐的红队测试框架,旨在全面评估MLLM安全性。该框架的核心是通过引入对抗内核实现范式转变,将自动化红队测试解构为五个关键维度:模型集成、数据管理、攻击策略、评判方法与评估指标。通过标准化攻击接口,它将对抗逻辑与高吞吐异步运行时解耦,实现跨多样模型的系统化扩展。我们的框架整合了37种攻击方法,涵盖白盒梯度攻击、多模态扰动及复杂多智能体进化策略。通过对20个先进模型(包括GPT-5.2、Claude 4.5和Gemini 3 Pro)的大规模实证研究,我们揭示了关键安全缺陷:即使前沿模型也难以泛化至不同攻击范式,领先模型的平均攻击成功率高达49.14%。值得注意的是,研究发现推理模型并不天然具备对抗复杂多轮越狱的鲁棒性。通过开源OpenRT,我们为加速AI安全发展与标准化提供了可持续、可扩展且持续维护的基础设施。
首帧传播(FFP)为可控视频编辑提供了前景广阔的新范式,但现有方法受限于对繁琐运行时引导的依赖。我们发现这一局限的根本原因在于当前训练数据集的不足——其往往时长过短、分辨率低下,且缺乏教导鲁棒时序先验所需的任务多样性。为填补这一基础性数据空白,我们首先提出了FFP-300K数据集,该大规模数据集通过双轨制流水线构建,包含30万对720p分辨率、81帧长度的高保真视频对,支持多样化的局部与全局编辑。基于此数据集,我们设计了一种真正无需引导的FFP创新框架,有效解决了保持首帧外观与维持源视频运动之间的核心矛盾。在架构层面,我们提出自适应时空旋转位置编码(AST-RoPE),通过动态重映射位置编码实现外观与运动参考的解耦;在目标层面,采用以身份传播任务作为强正则子的自蒸馏策略,确保长期时序稳定性并防止语义漂移。EditVerseBench基准测试表明,本方法在PickScore和VLM评分上分别以约0.2分和0.3分的优势显著超越现有学术及商业模型。
地理定位旨在推斷給定信號的地理來源。在計算機視覺領域,地理定位已成為組合推理能力的高要求基準測試,並與公共安全密切相關。相比之下,音頻地理定位的發展長期受制於高質量音頻-位置配對數據的匱乏。為解決這一問題,我們推出首個面向音頻語言模型(ALM)的音頻地理定位基準數據集AGL1K,涵蓋72個國家和地區。為從眾包平台篩選出具有可靠定位價值的樣本,我們提出音頻可定位性指標來量化每段錄音的信息含量,最終精選出1,444段音頻片段。對16個ALM的評估表明,現有ALM已初步具備音頻地理定位能力。研究發現閉源模型顯著優於開源模型,且語言線索常作為預測的主要推理支撐。我們進一步分析了ALM的推理路徑、區域偏差、錯誤成因以及可定位性指標的可解釋性。總體而言,AGL1K為音頻地理定位建立了基準測試框架,有望推動ALM提升地理空間推理能力。
从稀疏行为序列中捕捉复杂用户偏好始终是序列推荐领域的核心挑战。近期潜在推理方法通过多步推理扩展测试时计算展现出潜力,但这些方法仅依赖单一轨迹的深度维度扩展,随着推理深度增加会出现收益递减问题。为突破这一局限,我们提出并行潜在推理(PLR)框架,该框架通过同步探索多样化推理轨迹,首次实现宽度维度的计算扩展。PLR在连续潜在空间中通过可学习的触发令牌构建并行推理流,通过全局推理正则化保持流间多样性,并采用混合推理流聚合机制自适应融合多流输出。在三个真实数据集上的大量实验表明,PLR在保持实时推理效率的同时显著优于现有最优基线。理论分析进一步验证了并行推理对提升泛化能力的有效性。本研究为超越现有深度扩展模式、增强序列推荐推理能力开辟了新路径。
尽管高保真图像合成已取得显著进展,生成模型在遵循逻辑密集型指令时仍存在困难,暴露出持续存在的推理-执行差距。与此同时,闭源系统(如Nano Banana)已展现出强大的推理驱动图像生成能力,凸显出当前开源模型的明显不足。我们认为弥合这一差距不仅需要更优的视觉生成器,更需要可执行推理:将高级意图分解为可验证的具象化计划,直接引导生成过程。为此,我们提出通用思维器——一种面向通用图像生成的任务无关推理架构,其设计为可接入多样化生成器与工作流的统一规划核心。该架构将专用思维器与图像生成器解耦,实现无需重训整个生成模型的模块化推理升级。我们进一步引入两阶段训练范式:先为思维器构建结构化规划接口,再通过强化学习将其策略锚定于像素级反馈,促使规划方案优先保障视觉正确性而非文本合理性。在文本到图像生成与图像编辑任务上的大量实验表明,通用思维器能显著提升图像推理与生成质量。
大型推理模型在数学推理任务上展现出卓越性能,这通常归因于其生成显性思维链解释的能力。然而近期研究表明,这些模型往往在完成文本推理步骤前就已得出正确答案,表明存在潜在推理——即隐藏状态中编码的内部非语言计算。虽然该现象在英语领域已有探索,但其多语言特性仍属未知领域。本文通过截断策略对11种语言中的多语言潜在推理进行系统研究,通过观察模型仅获得部分推理痕迹时正确答案的生成过程,实现了对潜在预测形成的逐步骤测量。研究结果清晰揭示了多语言潜在推理的存在,但呈现不均衡性:资源丰富语言表现强劲,低资源语言相对薄弱,且在难度更高的基准测试中普遍难以观测。为探究这些差异是否反映不同的内部机制,我们进一步开展表征分析。尽管存在表层差异,但发现预测结果的内部演化在不同语言间高度一致,且与英语模式基本吻合——这一规律暗示着存在以英语为中心的潜在推理路径。
检测未知的深度伪造操作依然是人脸伪造检测领域最具挑战性的难题之一。当前最先进的方法由于主要依赖现有深度伪造或伪伪造数据的监督训练,导致对特定伪造模式产生过拟合,难以泛化至未见过的伪造类型。相比之下,自监督方法具有更强的泛化潜力,但现有研究仅通过自监督难以学习到具有判别力的表征。本文提出ExposeAnyone,一种基于扩散模型的完全自监督方法,可通过音频生成表情序列。其核心思想是:当模型通过参考集完成对特定对象的个性化适配后,即可通过扩散重建误差计算可疑视频与个性化对象之间的身份距离,从而实现重点人物的人脸伪造检测。大量实验表明:1)在DF-TIMIT、DFDCP、KoDF和IDForge数据集上,本方法的平均AUC较之前最优方法提升4.22个百分点;2)对于现有方法表现不佳的Sora2生成视频,我们的模型同样具备检测能力;3)本方法对模糊、压缩等干扰具有强鲁棒性,凸显了其在现实场景人脸伪造检测中的应用价值。
我们推出AceFF——一款专为小分子药物发现优化的预训练机器学习间势函数(MLIP)。尽管MLIP已成为密度泛函理论(DFT)的高效替代方案,但其在多样化化学空间中的泛化能力仍具挑战。AceFF通过基于类药物化合物综合数据集精调的TensorNet2架构解决此问题,实现了高通量推理速度与DFT级精度的平衡。该力场全面支持必需药物化学元素(H、B、C、N、O、F、Si、P、S、Cl、Br、I),并经过专门训练以处理带电状态。通过复杂二面角能量扫描、分子动力学轨迹、批量最小化以及力与能量精度等严格基准验证表明,AceFF为有机分子建立了全新的性能标杆。AceFF-2模型权重与推理代码已发布于https://huggingface.co/Acellera/AceFF-2.0。
图像去雾是计算机视觉领域的关键挑战,对于提升雾霾条件下图像清晰度至关重要。传统方法多依赖于大气散射模型,而近期深度学习技术特别是卷积神经网络(CNN)和Transformer通过有效分析图像特征提升了去雾性能。然而,CNN难以处理长程依赖关系,Transformer则需消耗大量计算资源。为突破这些局限,我们提出DehazeSNN——一种将类U-Net结构与脉冲神经网络(SNN)相融合的创新架构。该架构能捕捉多尺度图像特征,同时高效处理局部与长程依赖关系。通过引入正交漏积分发放模块(OLIFBlock),增强了跨通道信息交互能力,在降低计算负担的同时实现了卓越的去雾性能。大量实验表明,DehazeSNN在基准数据集上与国际先进方法相比具有显著竞争力,能以更小的模型规模和更少的乘累加运算生成高质量无雾图像。本去雾方法的代码已公开于https://github.com/HaoranLiu507/DehazeSNN。
社交媒体上的仇恨言论检测在准确性和可解释性方面均面临挑战,尤其对于研究不足的印度语言而言。我们提出了一种新颖的可解释性引导训练框架X-MuTeST(可解释多语言仇恨言论检测),通过结合大语言模型的高层语义推理与传统注意力增强技术,实现仇恨言论检测。我们将该研究扩展至印地语和泰卢固语(与英语并列),为每个单词提供基准级人工标注的归因依据以证明类别标签的合理性。X-MuTeST可解释性方法通过计算原始文本与单字组、双字组、三字组的预测概率差异生成解释,最终解释结果取大语言模型解释与X-MuTeST解释的并集。研究表明,在训练过程中利用人工标注的归因依据能同步提升分类性能与可解释性。此外,将人工归因与我们的可解释性方法结合以优化模型注意力机制,可带来进一步改善。我们采用合理性指标(如Token-F1和IOU-F1)与忠实度指标(如 Comprehensiveness 和 Sufficiency)评估可解释性。通过聚焦资源匮乏语言,本研究推动了跨语言环境的仇恨言论检测进展。我们的数据集包含6,004个印地语样本、4,492个泰卢固语样本和6,334个英语样本的词级归因标注。数据和代码详见https://github.com/ziarehman30/X-MuTeST。
我们探讨人工智能系统的两大属性:能力(系统能执行的功能)与可操控性(行为向预期目标可靠偏移的程度)。核心问题在于能力提升是否会削弱可操控性并引发控制崩溃风险。我们进一步区分授权可操控性(开发者可靠实现预期行为)与非授权可操控性(攻击者诱导出禁止行为)。这一区分揭示了AI模型固有的安全-安防困境:安全需要高可操控性以实施控制(如停止/拒绝机制),而安防则需要低可操控性来防止恶意行为者诱导有害行为。这种矛盾对开源权重模型构成重大挑战,当前这类模型通过微调或对抗攻击等常见技术展现出高可操控性。基于Qwen3与InstrumentalEval的实验发现,简短的反工具性提示后缀能显著降低测量收敛率(如规避关机、自我复制等场景)。以Qwen3-30B Instruct模型为例,其收敛率从支持工具性后缀下的81.69%骤降至反工具性后缀下的2.82%。在反工具性提示下,大型对齐模型比小型模型展现出更低的收敛率(Instruct版:2.82% vs 4.23%;思考版:4.23% vs 9.86%)。代码详见github.com/j-hoscilowicz/instrumental_steering。