每日精選AI研究論文及翻譯
大规模可验证奖励强化学习(RLVR)已展现出其在挖掘大型语言模型(LLMs)潜力以应对单轮推理任务方面的有效性。在实际推理场景中,LLMs常能借助外部工具辅助任务解决过程。然而,现有的强化学习算法未能充分平衡模型内在的长程推理能力与其在多轮工具交互中的熟练度。为弥合这一差距,我们提出了代理式强化策略优化(Agentic Reinforced Policy Optimization, ARPO),一种专为训练基于LLM的多轮代理而设计的新型代理式强化学习算法。通过初步实验,我们观察到LLMs在与外部工具交互后,往往表现出高度不确定的行为,具体表现为生成标记的熵分布增加。受此启发,ARPO引入了一种基于熵的自适应滚动机制,动态平衡全局轨迹采样与步骤级采样,从而促进在工具使用后高不确定性步骤上的探索。通过整合优势归因估计,ARPO使LLMs能够在逐步工具使用交互中内化优势差异。我们在计算推理、知识推理及深度搜索领域的13个挑战性基准测试中进行的实验,证明了ARPO相较于轨迹级强化学习算法的优越性。值得注意的是,ARPO仅需现有方法一半的工具使用预算即可实现性能提升,为将基于LLM的代理与实时动态环境对齐提供了可扩展的解决方案。我们的代码与数据集已发布于https://github.com/dongguanting/ARPO。
大型語言模型(LLMs)已展現出強大的能力,但其本質上仍屬靜態,無法根據新任務、演進的知識領域或動態的互動情境調整其內部參數。隨著LLMs越來越多地被部署於開放式、互動性的環境中,這種靜態特性已成為關鍵瓶頸,亟需能夠即時適應性推理、行動與演化的代理者。這一範式轉變——從擴展靜態模型轉向開發自我演化代理者——激發了對能夠從數據、互動與經驗中持續學習與適應的架構與方法日益增長的興趣。本綜述首次系統且全面地回顧了自我演化代理者,圍繞三個基本維度——演化什麼、何時演化及如何演化——進行組織。我們探討了代理者組件(如模型、記憶、工具、架構)間的演化機制,按階段(如測試期間內、測試期間外)分類適應方法,並分析了指導演化適應的算法與架構設計(如標量獎勵、文本反饋、單代理與多代理系統)。此外,我們分析了專為自我演化代理者定制的評估指標與基準,強調了在編程、教育、醫療等領域的應用,並指出了在安全性、可擴展性及共同演化動力學方面的關鍵挑戰與研究方向。通過提供一個結構化框架以理解與設計自我演化代理者,本綜述為在研究與實際部署中推進適應性代理系統建立了路線圖,最終為實現人工超級智能(ASI)——代理者自主演化,在廣泛任務中達到或超越人類智能水平——照亮了道路。
现实世界中用户生成的短视频,尤其是在微信视频号和抖音等平台上广泛传播的内容,已然主导了移动互联网的潮流。然而,当前的大型多模态模型在时间结构化的、细致且深入的视频理解能力方面仍显不足,而这些能力恰恰是高效视频搜索与推荐以及新兴视频应用发展的基石。理解现实世界中的短视频实际上颇具挑战性,原因在于它们包含复杂的视觉元素,视觉与音频信息密度高,且节奏快速,着重于情感表达与观点传递。这要求模型具备高级推理能力,以有效整合包括视觉、音频和文本在内的多模态信息。在本研究中,我们推出了ARC-Hunyuan-Video,一个能够从原始视频输入端到端处理视觉、音频及文本信号,实现结构化理解的多模态模型。该模型具备多粒度时间戳视频描述与摘要生成、开放式视频问答、时间视频定位以及视频推理的能力。借助自动化标注管道产生的高质量数据,我们通过一套全面的训练方案——包括预训练、指令微调、冷启动、强化学习(RL)后训练及最终的指令微调——训练出了一个紧凑的7B参数模型。在我们引入的ShortVid-Bench基准上的定量评估及定性对比中,该模型展现了其在现实世界视频理解方面的强劲性能,并支持零样本或少样本微调以适应多样化的下游应用。我们模型的实际生产部署已显著提升了用户参与度与满意度,这一成功得益于其卓越的效率,压力测试显示,在H20 GPU上,一分钟视频的推理时间仅需10秒。
尽管前沿的大型语言模型(LLMs)不断突破能力边界,它们的部署仍局限于依赖GPU的云端基础设施。我们通过SmallThinker系列模型挑战这一范式,这是一类原生设计——而非适配——以应对本地设备独特限制的LLMs:计算能力弱、内存有限及存储速度慢。不同于主要压缩为云端构建的现有模型的传统方法,我们从零开始构建SmallThinker,使其在这些限制下蓬勃发展。我们的创新在于采用了一种部署感知的架构,将约束转化为设计原则。首先,我们引入了一种结合细粒度专家混合(MoE)与稀疏前馈网络的双层稀疏结构,大幅降低计算需求而不牺牲模型能力。其次,为克服慢速存储的I/O瓶颈,我们设计了一个预注意力路由器,使我们的协同设计推理引擎在计算注意力的同时预取专家参数,有效隐藏了原本会严重阻碍设备端推理的存储延迟。第三,为提升内存效率,我们采用NoPE-RoPE混合稀疏注意力机制,大幅减少KV缓存需求。我们发布了SmallThinker-4B-A0.6B和SmallThinker-21B-A3B,它们不仅达到了最先进的性能评分,甚至超越了更大的LLMs。尤为显著的是,我们的协同设计系统几乎消除了对昂贵GPU硬件的需求:在Q4_0量化下,两个模型在普通消费级CPU上均超过20 tokens/s的速度,同时仅分别消耗1GB和8GB内存。SmallThinker现已公开于hf.co/PowerInfer/SmallThinker-4BA0.6B-Instruct和hf.co/PowerInfer/SmallThinker-21BA3B-Instruct。
儘管多任務學習在利用跨任務的互補知識方面展現了巨大潛力,現有的多任務優化(MTO)技術仍專注於通過以優化器為中心的損失縮放和梯度操控策略來解決衝突,卻未能帶來一致的性能提升。本文主張,在任務交互自然發生的共享表示空間中,蘊含著豐富的信息和潛力,可進行與現有優化器互補的操作,特別是在促進任務間互補性方面,這在MTO中鮮有探索。這一洞見催生了Rep-MTL,它利用表示層面的任務顯著性來量化任務特定優化與共享表示學習之間的交互。通過基於熵的懲罰和樣本級跨任務對齊來引導這些顯著性,Rep-MTL旨在通過維持個別任務的有效訓練而非單純解決衝突來減輕負遷移,同時明確促進互補信息的共享。實驗在涵蓋任務偏移和領域偏移場景的四個具有挑戰性的MTL基準上進行。結果表明,即使搭配基本的等權重策略,Rep-MTL也能實現競爭性的性能提升,並具有良好的效率。除了標準的性能指標外,冪律指數分析證明了Rep-MTL在平衡任務特定學習與跨任務共享方面的有效性。項目頁面可於此處訪問。
从视觉观察中重建四维空间智能,长期以来一直是计算机视觉领域中的核心且具挑战性的任务,其应用范围广泛,涵盖了从娱乐产业如电影制作——其中重点常在于重建基础视觉元素,到具身人工智能——强调交互建模与物理真实感。得益于三维表示与深度学习架构的飞速发展,该领域进展迅速,超越了以往综述的涵盖范围。此外,现有综述鲜少对四维场景重建的层次结构进行全面分析。为填补这一空白,我们提出了一种新视角,将现有方法组织为五个递进层次的四维空间智能:(1) 第一层次——低层次三维属性重建(如深度、姿态及点云图);(2) 第二层次——三维场景组件重建(如物体、人物、结构);(3) 第三层次——四维动态场景重建;(4) 第四层次——场景组件间交互建模;(5) 第五层次——物理定律与约束的融入。在综述的结尾,我们讨论了每一层次的关键挑战,并指出了向更丰富四维空间智能层次推进的潜在方向。为追踪最新进展,我们维护了一个实时更新的项目页面:https://github.com/yukangcao/Awesome-4D-Spatial-Intelligence。
近期,如群组相对策略优化(GRPO)等进展,通过优化令牌级奖励的算术平均值,增强了大型语言模型的推理能力。然而,GRPO在处理具有异常重要性加权奖励的令牌时,存在策略更新不稳定的问题,这在训练过程中表现为极端的重要性采样比率,即当前策略与旧策略对某一令牌赋予的采样概率之比。本研究中,我们提出了几何平均策略优化(GMPO),作为GRPO的稳定变体。GMPO不再优化算术平均值,而是最大化令牌级奖励的几何平均值,该方法本质上对异常值不敏感,并能保持更为稳定的重要性采样比率范围。此外,我们提供了全面的理论与实验分析,以论证GMPO设计及其稳定性优势的合理性。除了稳定性提升外,GMPO-7B在多个数学基准测试中平均超越GRPO 4.1%,在多模态推理基准测试中提升1.4%,涵盖AIME24、AMC、MATH500、OlympiadBench、Minerva及Geometry3K等。相关代码已发布于https://github.com/callsys/GMPO。
具備長鏈思維(CoT)能力的大型推理模型(LRM)在數學推理和編程等客觀任務上展現出強大的性能。然而,在面對可能因不同視角而有多種答案的主觀問題時,其有效性仍受到同質化推理傾向的限制,這源於監督微調中對單一標準答案的依賴以及強化學習中可驗證獎勵的應用。基於增加角色視角能持續提升性能的發現,我們提出了MultiRole-R1,這是一個增強多樣性的框架,通過引入多角色視角來提高主觀推理任務的準確性和多樣性。MultiRole-R1特點在於其無監督數據構建流程,該流程生成包含多樣角色視角的推理鏈。我們進一步採用基於群體相對策略優化(GRPO)的強化學習,並通過獎勵塑造,將多樣性作為除可驗證獎勵外的額外獎勵信號。通過特別設計的獎勵函數,我們成功促進了視角多樣性和詞彙多樣性,揭示了推理多樣性與準確性之間的正相關關係。在六個基準測試上的實驗證明了MultiRole-R1在增強主觀和客觀推理方面的有效性和普適性,展示了多樣性增強訓練在LRMs中的潛力。
近期,如GPT-4o等大型多模态模型的進展,為高保真度、指令引導的圖像編輯設立了新標準。然而,這些模型及其訓練數據的專有性質,對開源研究構成了重大障礙。為彌合這一差距,我們推出了GPT-IMAGE-EDIT-1.5M,這是一個公開可用的大規模圖像編輯語料庫,包含超過150萬個高質量三元組(指令、源圖像、編輯後圖像)。我們系統地構建了這一數據集,利用GPT-4o的多功能能力,統一並精煉了三個流行的圖像編輯數據集:OmniEdit、HQ-Edit和UltraEdit。具體而言,我們的方法包括:1)重新生成輸出圖像以提升視覺質量與指令對齊度,2)選擇性重寫提示以增強語義清晰度。為驗證我們數據集的有效性,我們在GPT-IMAGE-EDIT-1.5M上對先進的開源模型進行了微調。實證結果令人振奮,例如,微調後的FluxKontext在一系列綜合基準測試中表現出極具競爭力的性能,包括在GEdit-EN上獲得7.24分,在ImgEdit-Full上獲得3.80分,在Complex-Edit上獲得8.78分,顯示出更強的指令遵循能力和更高的感知質量,同時保持了身份一致性。這些分數顯著超越了所有先前發布的開源方法,並大幅縮小了與領先專有模型之間的差距。我們希望GPT-IMAGE-EDIT-1.5M的全面發布,能夠促進指令引導圖像編輯領域的進一步開放研究。
学习视觉表征是众多下游任务的基础。尽管近期如CLIP和SigLIP等视觉-语言对比模型通过大规模视觉-语言对齐实现了令人瞩目的零样本性能,但它们对全局表征的依赖限制了其在密集预测任务(如定位、光学字符识别(OCR)和分割)中的有效性。为填补这一空白,我们提出了区域感知聚类判别(RICE)这一新方法,旨在增强区域级别的视觉与OCR能力。我们首先构建了一个包含数十亿候选区域的数据集,并引入区域Transformer层以提取丰富的区域语义。进一步地,我们设计了一种统一的区域聚类判别损失函数,该函数在单一分类框架内同时支持物体与OCR学习,从而实现了大规模数据上的高效可扩展分布式训练。大量实验表明,RICE在包括分割、密集检测以及多模态大语言模型(MLLMs)的视觉感知任务上,均持续超越先前方法。预训练模型已发布于https://github.com/deepglint/MVT。
文件影像校正旨在消除拍攝文件中的幾何變形,以便於文字識別。然而,現有方法往往忽視了前景元素的重要性,這些元素為文件影像校正提供了關鍵的幾何參考和版面信息。本文中,我們引入了前景中心網絡(ForCenNet)來消除文件影像中的幾何失真。具體而言,我們首先提出了一種前景中心的標籤生成方法,該方法從未失真影像中提取詳細的前景元素。接著,我們引入了一種前景中心遮罩機制,以增強可讀區域與背景區域之間的區分。此外,我們設計了一種曲率一致性損失,利用詳細的前景標籤來幫助模型理解失真的幾何分佈。大量實驗表明,ForCenNet在四個真實世界基準測試(如DocUNet、DIR300、WarpDoc和DocReal)上達到了新的最先進水平。定量分析顯示,所提出的方法有效地校正了版面元素,如文本行和表格邊框。進一步比較的資源已提供於https://github.com/caipeng328/ForCenNet。
永續3D場景生成旨在產生長範圍且連貫的3D視圖序列,這適用於長期視頻合成與3D場景重建。現有方法遵循「導航與想像」的模式,並依賴於外推技術來實現連續視圖的擴展。然而,生成視圖序列存在語意漂移問題,這源於外推模塊累積的偏差。為應對這一挑戰,我們提出了ScenePainter,一個用於語意一致3D場景生成的新框架,它將外推器的場景特定先驗與當前場景的理解對齊。具體而言,我們引入了一種名為SceneConceptGraph的層次圖結構,來構建多層次場景概念之間的關係,這指導外推器生成一致的新視圖,並可動態精煉以增強多樣性。大量實驗證明,我們的框架克服了語意漂移問題,並生成了更加一致且沉浸的3D視圖序列。項目頁面:https://xiac20.github.io/ScenePainter/。
全球氣候變化導致極端天氣事件頻發,這對精確的天氣預報提出了迫切需求。近年來,得益於深度學習技術,端到端方法取得了顯著進展,但這些方法在多變量整合中面臨表示不一致性的限制,且難以有效捕捉複雜天氣系統中所需的變量間依賴關係。將不同變量視為獨立模態並採用多模態模型的兩階段訓練方法,雖能部分緩解此問題,但由於兩階段訓練任務的不一致性,結果往往未達最佳。為應對這些挑戰,我們提出了一種隱式的兩階段訓練方法,為每個變量配置獨立的編碼器與解碼器。具體而言,在第一階段,翻譯器被凍結,而編碼器與解碼器學習共享的潛在空間;在第二階段,編碼器與解碼器被凍結,翻譯器則捕捉變量間的交互作用以進行預測。此外,通過在潛在空間中引入自注意力機制進行多變量融合,性能得到了進一步提升。實驗結果表明,我們的方法達到了最先進的性能水平,具體而言,在近地表氣溫和相對濕度預測上,均方誤差分別降低了28.82%和23.39%。源代碼已公開於https://github.com/ShremG/Met2Net。
近期,大型语言模型(LLMs)的进展凸显了通过可验证奖励的强化学习(RLVR)在扩展输出序列中提升推理能力的潜力。然而,传统RL框架在处理超长输出时,因长尾序列分布及训练过程中的熵崩溃问题而效率低下。为应对这些挑战,我们提出了一种超长输出强化学习(UloRL)方法,旨在提升大型语言模型的推理能力。具体而言,我们将超长输出解码分割为短片段,通过缓解长尾样本导致的延迟来实现高效训练。此外,我们引入了对已掌握正标记(MPTs)的动态掩码机制,以防止熵崩溃。实验结果表明了该方法的有效性。在Qwen3-30B-A3B模型上,采用分段展开的RL训练速度提升了2.06倍,而针对128k标记输出的RL训练,则使模型在AIME2025上的表现从70.9%提升至85.1%,在BeyondAIME上从50.7%提升至61.9%,甚至超越了Qwen3-235B-A22B,取得了显著增益。这些发现强调了我们的方法在通过超长序列生成推进LLMs推理能力方面的潜力。我们将发布代码和模型,以供社区进一步使用。
扩散模型与流匹配模型近年来彻底革新了自动文本至音频生成技术。这些模型日益能够产生高质量且忠实于原声的音频输出,涵盖语音及声学事件。然而,在主要涉及音乐与歌曲的创意音频生成领域,仍有广阔提升空间。近期开放的歌词至歌曲模型,如DiffRhythm、ACE-Step及LeVo,已在娱乐用途的自动歌曲生成中树立了可接受的标准。然而,这些模型在音乐家工作流程中常需的细粒度词级可控性方面仍显不足。据我们所知,基于流匹配的JAM模型是首个致力于在歌曲生成中赋予词级时间与时长控制能力的尝试,实现了精细的人声操控。为提升生成歌曲质量,使其更贴合人类偏好,我们通过直接偏好优化实施美学对齐,利用合成数据集迭代精炼模型,省去了手动数据标注的需求。此外,我们旨在通过公开评估数据集JAME,标准化此类歌词至歌曲模型的评估流程。我们证明,JAM在音乐特定属性方面优于现有模型。
我們推出Music Arena,這是一個用於文本到音樂(TTM)模型可擴展人類偏好評估的開放平台。通過聽覺研究來徵集人類偏好是TTM評估的黃金標準,但這些研究成本高昂且難以比較,因為不同系統的研究協議可能有所不同。此外,人類偏好可能有助於研究人員對齊其TTM系統或改進自動評估指標,但目前尚不存在一個開放且可更新的偏好來源。我們旨在通過提供TTM的*實時*評估來填補這些空白。在Music Arena中,真實世界的用戶輸入他們選擇的文本提示,並比較兩個TTM系統的輸出,他們的偏好被用來編制排行榜。雖然Music Arena遵循了其他AI領域的最新評估趨勢,但我們也為其設計了針對音樂的關鍵特性:一個基於LLM的路由系統,以導航TTM系統的異構類型簽名,以及收集*詳細*偏好,包括聽覺數據和自然語言反饋。我們還提出了一項滾動數據發布政策,並保證用戶隱私,提供了一個可更新的偏好數據來源,並增加了平台的透明度。通過其標準化的評估協議、透明的數據訪問政策以及針對音樂的特性,Music Arena不僅解決了TTM生態系統中的關鍵挑戰,還展示了如何將實時評估巧妙地適應特定AI領域的獨特特性。 Music Arena可在以下網址訪問:https://music-arena.org
大型语言模型(LLMs)在通过强化学习提升逐步推理能力方面取得了显著进展。然而,依赖稀疏奖励规则的群体相对策略优化(GRPO)算法常常面临组内奖励相同的问题,导致优势崩溃现象。现有研究通常从两个角度应对这一挑战:强制模型反思以增强响应多样性,以及引入内部反馈以增强训练信号(优势)。在本研究中,我们首先分析了模型反思的局限性,并在细粒度样本层面探讨了响应策略的熵。基于实验发现,我们提出了EDGE-GRPO算法,该算法采用熵驱动优势和引导式错误校正,有效缓解了优势崩溃问题。在多个主要推理基准上的广泛实验证明了我们方法的有效性和优越性。相关资源可在https://github.com/ZhangXJ199/EDGE-GRPO获取。
當語言模型(LMs)通過強化學習(RL)訓練以生成自然語言“推理鏈”時,它們在各種困難的問答任務上的表現有所提升。現今,幾乎所有成功的RL應用於推理的案例都使用二元獎勵函數來評估LM輸出的正確性。由於此類獎勵函數不會懲罰猜測或低信心輸出,它們往往會產生無意的副作用,即降低校準度並增加LM在其他問題領域生成錯誤回應(或“幻覺”)的比率。本文介紹了RLCR(帶有校準獎勵的強化學習),這是一種訓練推理模型的方法,它同時提高了準確性和校準信心估計。在RLCR過程中,LMs在推理後生成預測和數值信心估計。它們被訓練以優化一個獎勵函數,該函數將二元正確性分數與Brier分數——一種激勵校準預測的信心估計評分規則——結合起來。我們首先證明,這種獎勵函數(或任何使用有界、適當評分規則的類似獎勵函數)產生的模型,其預測既準確又校準良好。接著,我們展示在各種數據集上,RLCR在域內和域外評估中顯著提高了校準度,且不損失準確性——超越了普通RL訓練和訓練來分配事後信心分數的分類器。雖然普通RL損害校準,但RLCR改善了它。最後,我們證明,在測試時可以利用口頭表達的信心,通過信心加權縮放方法來提高準確性和校準度。我們的結果表明,明確優化校準可以產生更為可靠的推理模型。
對於具備複雜數學推理能力的大型語言模型(LLMs)的需求,在各行各業中日益增長。然而,開發性能優異的數學LLMs面臨著一個關鍵瓶頸:缺乏困難且新穎的訓練數據。我們引入了SAND-Math(合成增強新穎與困難數學問題及解答),這是一個解決此問題的流程,首先從零開始生成高質量的問題,然後通過一個新的「難度提升」步驟系統性地增加其複雜性。我們通過兩個關鍵發現展示了我們方法的有效性。首先,將SAND-Math數據增強到一個強大的基線模型上,顯著提升了性能,在AIME25基準測試中,比次佳合成數據集高出17.85個絕對點。其次,在一項專門的消融研究中,我們展示了我們的「難度提升」過程極為有效:通過將平均問題難度從5.02提升至5.98,這一步驟將AIME25的表現從46.38%提升至49.23%。完整的生成流程、最終數據集以及一個微調模型,共同構成了構建更強大、更高效數學推理LLMs的實用且可擴展工具包。SAND-Math數據集已在此發布: https://huggingface.co/datasets/amd/SAND-MATH{https://huggingface.co/datasets/amd/SAND-MATH}
用户模拟器在对话式人工智能中扮演着至关重要的角色,通过模拟交互实现了可扩展的代理开发与评估。尽管当前的大型语言模型(LLMs)已显著提升了用户模拟能力,但我们发现,在多轮对话中,这些模型难以持续展现出目标导向的行为——这一关键局限削弱了其在下游应用中的可靠性。为此,我们引入了用户目标状态追踪(UGST)这一创新框架,旨在全程监控对话中用户目标的进展。依托UGST,我们提出了一种三阶段方法论,用于开发能够自主追踪目标进展并推理生成目标一致响应的用户模拟器。此外,我们建立了一套全面的评估指标,用以衡量用户模拟器中的目标一致性,并通过两个基准测试(MultiWOZ 2.4和{\tau}-Bench)展示了我们的方法所带来的显著改进。我们的研究成果填补了对话式人工智能领域的一个重要空白,确立了UGST作为开发目标一致用户模拟器的核心框架地位。
基因表達分析是許多生物醫學發現的關鍵,然而從原始轉錄組數據中提取洞見仍然是一項艱巨的任務,這源於多個大型半結構化文件的複雜性以及對廣泛領域專業知識的需求。當前的自動化方法往往受限於在邊緣情況下易於崩潰的僵化工作流程,或缺乏嚴謹科學探究所需精確性的完全自主代理。GenoMAS開闢了一條不同的道路,它展示了一個基於大語言模型(LLM)的科學家團隊,將結構化工作流程的可靠性與自主代理的適應性相結合。GenoMAS通過類型化的消息傳遞協議協調六個專業化的LLM代理,每個代理都在共享的分析畫布上貢獻互補的優勢。GenoMAS的核心是一個引導規劃框架:編程代理將高層次任務指南展開為行動單元,並在每個節點選擇推進、修訂、繞過或回溯,從而保持邏輯連貫性,同時靈活應對基因組數據的特殊性。 在GenoTEX基準測試中,GenoMAS在數據預處理方面達到了89.13%的綜合相似性相關性,在基因識別方面達到了60.48%的F_1分數,分別超過了之前最佳技術10.61%和16.85%。除了指標之外,GenoMAS還揭示了文獻支持的生物學上可信的基因-表型關聯,同時調整了潛在的混雜因素。代碼可在https://github.com/Liu-Hy/GenoMAS獲取。
随着大型语言模型(LLMs)日益整合原生代码解释器,它们实现了强大的实时执行能力,极大地扩展了其应用范围。然而,此类整合引入了潜在的系统级网络安全威胁,这些威胁与基于提示的漏洞有本质区别。为了系统评估这些解释器特有的风险,我们提出了CIRCLE(LLM利用的代码解释器韧性检查),这是一个包含1,260个针对CPU、内存和磁盘资源耗尽的提示的简单基准。每个风险类别包括明确恶意(“直接”)和看似良性(“间接”)的提示变体。我们的自动化评估框架不仅评估LLMs是否拒绝或生成风险代码,还在解释器环境中执行生成的代码,以评估代码的正确性、LLM为使代码安全而进行的简化,或执行超时情况。通过对OpenAI和Google提供的7个商用模型进行评估,我们发现了显著且不一致的漏洞。例如,评估显示,即使在提供商内部也存在显著差异——OpenAI的o4-mini正确拒绝风险请求的比例为7.1%,显著高于GPT-4.1的0.5%。结果特别强调,间接的、社会工程学提示显著削弱了模型的防御能力。这凸显了迫切需要针对解释器的网络安全基准、专门的缓解工具(如防护栏)以及明确的行业标准,以指导LLM解释器整合的安全和负责任部署。基准数据集和评估代码已公开发布,以促进进一步研究。