每日精選AI研究論文及翻譯
我们推出基于离散态扩散的大规模语言模型——Seed Diffusion Preview,其具备极为迅捷的推理速度。得益于非顺序、并行生成的特点,离散扩散模型显著加速了逐令牌解码过程中固有的延迟问题,正如近期研究(如Mercury Coder、Gemini Diffusion)所展示的那样。Seed Diffusion Preview在H20 GPU上实现了每秒2,146个令牌的推理速度,同时在一系列标准代码评估基准测试中保持了竞争力,其速度远超当前的Mercury与Gemini Diffusion,从而在代码模型的速度-质量帕累托前沿上确立了新的技术标杆。
我們推出Skywork UniPic,這是一個擁有15億參數的自迴歸模型,它將圖像理解、文本到圖像生成以及圖像編輯功能整合於單一架構之中,無需特定任務的適配器或模塊間連接器,並展示了緊湊型多模態系統在商用硬件上也能達到業界領先的性能。Skywork UniPi在GenEval評分中取得了0.86的成績,超越了大多數現有的統一模型;在DPG-Bench複雜生成任務中創下了85.5的新紀錄;在圖像編輯方面,於GEditBench-EN上獲得5.83分,在ImgEdit-Bench上獲得3.49分;並且在不到15GB的GPU顯存(例如RTX 4090)下生成1024x1024分辨率的圖像。其核心技術包括:(1) 解耦編碼策略,利用掩碼自迴歸編碼器進行合成,SigLIP2編碼器進行理解,共同供給一個共享的自迴歸解碼器;(2) 漸進式、分辨率感知的訓練計劃,從256x256逐步擴展至1024x1024,同時動態解凍參數以平衡模型能力與穩定性;(3) 精心挑選的、規模達1億的數據集,結合特定任務的獎勵模型,以精煉生成與編輯目標。通過證明高保真多模態集成不必伴隨過高的資源需求,Skywork UniPic為可部署的高保真多模態AI樹立了實用範式。代碼及權重已公開於https://huggingface.co/Skywork/Skywork-UniPic-1.5B。
可控超長視頻生成是一項基礎但極具挑戰性的任務。儘管現有方法在短片段生成上表現有效,但由於時間不一致性和視覺退化等問題,它們難以擴展至更長視頻。本文首先探討並識別了三個關鍵因素:獨立的噪聲初始化、獨立控制信號歸一化以及單模態指導的局限性。為解決這些問題,我們提出了LongVie,這是一個端到端的自回歸框架,用於可控長視頻生成。LongVie引入了兩個核心設計以確保時間一致性:1)統一的噪聲初始化策略,確保跨片段生成的一致性;2)全局控制信號歸一化,強制整個視頻在控制空間中的對齊。為減輕視覺退化,LongVie採用了3)多模態控制框架,整合了密集(如深度圖)和稀疏(如關鍵點)控制信號,並輔以4)退化感知訓練策略,自適應地平衡模態貢獻以保持視覺質量。我們還引入了LongVGenBench,這是一個全面的基準測試,包含100個高分辨率視頻,涵蓋多樣的真實世界和合成環境,每個視頻持續超過一分鐘。大量實驗表明,LongVie在長程可控性、一致性和質量方面達到了最先進的性能。
答案验证不仅对于通过将大型语言模型(LLMs)的非结构化输出与标准答案进行匹配来评估其性能至关重要,同时也作为奖励模型指导LLM的优化。大多数评估框架依赖于正则化匹配或采用通用LLMs进行答案验证,这需要对正则表达式规则或评估提示进行大量重复的定制。当前方法存在两个根本性局限:1)缺乏全面系统地评估不同LLM验证能力的基准;2)验证器开发尚处于初期阶段,现有方法既缺乏处理复杂边缘案例的鲁棒性,也缺乏跨不同领域的泛化能力。在本研究中,我们开发了CompassVerifier,一个准确且鲁棒的轻量级验证器模型,用于评估和结果奖励。它展示了跨数学、知识及多样化推理任务的多领域能力,能够处理包括多子问题、公式和序列答案在内的多种答案类型,同时有效识别异常/无效响应。我们引入了VerifierBench基准,该基准包含从多个数据源收集的模型输出,并通过手动分析元错误模式进行增强,以提升CompassVerifier的性能。我们预期CompassVerifier和VerifierBench将促进答案验证、评估协议及强化学习研究。代码和数据集可在https://github.com/open-compass/CompassVerifier获取。
問題定位,即識別需要修改以解決軟件問題的代碼位置,是軟件開發中一項關鍵且具挑戰性的任務。自然語言問題描述與錯誤代碼之間的語義鴻溝,要求通過代碼依賴關係進行複雜的多步推理。現有的基於大型語言模型(LLM)的代理嘗試通過集成倉庫檢索工具來解決這一問題。然而,這將問題定位轉化為一項我們稱之為“倉庫深度搜索”的高要求任務,該任務需要LLM在多步推理和導航過程中有效利用各種倉庫檢索工具。為應對這一挑戰,我們提出了ToolTrain,這是一個兩階段的工具集成訓練框架,結合了拒絕採樣的監督微調和工具集成的強化學習,以增強LLM利用檢索工具進行問題定位的能力。實驗結果表明,經過ToolTrain訓練的模型在函數級定位上達到了最先進的性能,我們的32B模型甚至超越了Claude-3.7。結果還顯示,定位性能的提升轉化為更好的端到端問題解決性能。這進一步證明了針對問題定位進行訓練是提升自動化軟件開發的一種可行且有效的策略。
Transformer模型在視覺、語言和視頻領域展現了卓越的成功。然而,隨著任務複雜度的增加,模型規模和token數量也隨之增長,這導致了自注意力機制的二次方計算成本上升以及GPU記憶體訪問的開銷增大。為了降低自注意力的計算成本,先前的研究提出了token壓縮技術,通過剔除冗餘或信息量較低的token來實現。同時,諸如FlashAttention之類的融合注意力核心已被開發出來,通過避免構建注意力圖及其相關的高頻寬記憶體(HBM)I/O操作來減輕記憶體開銷。然而,這使得其與大多數無需訓練的token壓縮方法不相容,因為這些方法依賴於注意力圖來確定token的重要性。在此,我們提出了表示偏移(Representation Shift),這是一種無需訓練、模型無關的度量標準,用於衡量每個token表示變化的程度。這使得token壓縮與FlashAttention無縫集成,無需注意力圖或重新訓練。我們的方法進一步推廣到Transformer之外的CNN和狀態空間模型。大量實驗表明,表示偏移能夠實現與FlashAttention兼容的有效token壓縮,在視頻文本檢索和視頻問答中分別帶來高達5.5%和4.4%的顯著加速。代碼可在https://github.com/mlvlab/Representation-Shift獲取。
近似最近鄰搜索(ANNS)算法在近期的AI應用中變得日益關鍵,特別是在檢索增強生成(RAG)和基於代理的大型語言模型(LLM)應用中。本文介紹了CRINN,一種新的ANNS算法範式。CRINN將ANNS優化視為一個強化學習問題,其中執行速度作為獎勵信號。這種方法能夠在保持精度約束的同時,自動生成逐步更快的ANNS實現。我們的實驗評估展示了CRINN在六個廣泛使用的NNS基準數據集上的有效性。與最先進的開源ANNS算法相比,CRINN在其中三個數據集(GIST-960-Euclidean、MNIST-784-Euclidean和GloVe-25-angular)上取得了最佳性能,並在其中兩個數據集(SIFT-128-Euclidean和GloVe-25-angular)上並列第一。CRINN的成功意義遠超ANNS優化:它驗證了增強強化學習的LLM可以作為自動化複雜算法優化的有效工具,這些優化需要專業知識和勞動密集的手動精煉。代碼可在https://github.com/deepreinforce-ai/CRINN找到。
隨著模型上下文協議(Model Context Protocol, MCP)的迅速發展,MCP伺服器的數量已超過10,000台。然而,現有的MCP基準測試僅限於單一伺服器設置,且僅包含少數工具,這阻礙了在大規模、真實場景中對代理能力的有效評估。為解決這一限制,我們提出了LiveMCPBench,這是首個基於MCP生態系統的綜合基準測試,包含95個真實世界任務,旨在跨多樣化伺服器大規模評估LLM代理。為支持大規模MCP環境中可擴展且可重現的評估流程,我們精心策劃了LiveMCPTool,這是一個多樣化且易於部署的集合,包含70個MCP伺服器和527種工具。此外,我們引入了LiveMCPEval,這是一個LLM-as-a-Judge框架,能夠在動態、時變的任務環境中實現自動化和適應性評估,與人類評審員的一致性達到81%。最後,我們提出了MCP Copilot Agent,這是一個多步驟代理,能夠為動態規劃路由工具,並在整個LiveMCPTool套件中執行工具以進行API交互。我們的評估涵蓋了10個領先模型,表現最佳的模型(Claude-Sonnet-4)達到了78.95%的成功率。然而,我們觀察到不同模型之間的性能差異很大,並且幾個廣泛使用的模型在LiveMCPBench複雜且工具豐富的環境中表現不佳。總體而言,LiveMCPBench提供了首個統一框架,用於在真實、工具豐富且動態的MCP環境中對LLM代理進行基準測試,為代理能力的可擴展和可重現研究奠定了堅實基礎。我們的代碼和數據將在https://icip-cas.github.io/LiveMCPBench公開提供。
我們探討了三種策略來提升多種圖像編輯任務的表現:監督式微調(SFT)、強化學習(RL)以及思維鏈(CoT)推理。為了在一個統一的框架下研究所有這些組件,我們採用了一種自回歸多模態模型,該模型以統一的方式處理文本和視覺標記。我們發現,結合大型多模態LLM驗證器的強化學習是這些策略中最有效的。因此,我們發布了EARL:基於自回歸與強化學習的圖像編輯模型,這是一個強大的基於RL的圖像編輯模型,儘管使用了更少的訓練數據,但在多樣化的編輯任務上與強基準模型相比表現出色。因此,EARL推動了自回歸多模態模型在圖像編輯領域的前沿。我們在https://github.com/mair-lab/EARL上發布了我們的代碼、訓練數據和訓練好的模型。
我们推出了Goedel-Prover-V2,这是一系列在自动定理证明领域树立新标杆的开源语言模型。基于标准的专家迭代与强化学习流程,我们的方法融合了三大创新点:(1)阶梯式数据合成:通过生成难度递增的合成任务,训练模型逐步掌握更为复杂的定理;(2)验证器引导的自我修正:借助Lean编译器的反馈,使模型能够迭代修正其证明;(3)模型平均:合并模型检查点,以缓解训练后期模型输出多样性的下降。我们的轻量级模型Goedel-Prover-V2-8B,在MiniF2F测试中达到了84.6%的pass@32成绩,尽管体积仅为DeepSeek-Prover-V2-671B的1/80,却在该指标上超越了后者。旗舰模型Goedel-Prover-V2-32B,在标准模式下于MiniF2F测试中取得88.1%的pass@32成绩,在自我修正模式下更是达到90.4%,大幅领先于先前的最优水平。此外,该旗舰模型在PutnamBench上以pass@184解决了86道题目,在开源模型排行榜上位居首位,超越了DeepSeek-Prover-V2-671B以pass@1024解决47道题目的记录,且模型规模与计算预算显著更小。截至发布之时(2025年7月至8月),Goedel-Prover-V2在所有开源定理证明器中展现了最强的综合性能。在受限的测试计算预算下,它亦跻身于包括公开报告性能的闭源系统在内的顶尖模型之列。我们的模型、代码及数据已发布于https://github.com/Goedel-LM/Goedel-Prover-V2。
現有針對說話視頻生成的研究主要集中於單人獨白或孤立的面部動畫,這限制了其在現實多人互動場景中的應用。為彌補這一差距,我們引入了MIT,這是一個專為多人說話視頻生成而設計的大規模數據集。為此,我們開發了一個自動化流程,用於收集和標註多人對話視頻。最終的數據集包含12小時的高清視頻,每段視頻中均有二至四位發言者,並附有細緻的身體姿態和語音互動標註。該數據集捕捉了多發言者場景中的自然對話動態,為研究互動視覺行為提供了豐富的資源。為展示MIT的潛力,我們進一步提出了CovOG,作為這一新任務的基準模型。它整合了一個多人姿態編碼器(MPE),通過聚合個體姿態嵌入來處理不同數量的發言者,以及一個互動音頻驅動器(IAD),根據發言者特定的音頻特徵調節頭部動態。這些組件共同展示了生成逼真多人說話視頻的可行性與挑戰,使MIT成為未來研究的重要基準。代碼已開源於:https://github.com/showlab/Multi-human-Talking-Video-Dataset。
在可控圖像合成領域,如何基於多個參考圖像並結合空間佈局意識生成連貫且一致的圖像,仍是一個未解的挑戰。本文提出了LAMIC,一種佈局感知的多圖像合成框架,首次以無需訓練的方式將單參考擴散模型擴展至多參考場景。基於MMDiT模型,LAMIC引入了兩種即插即用的注意力機制:1)群組隔離注意力(GIA),以增強實體解耦;2)區域調製注意力(RMA),實現佈局感知生成。為全面評估模型能力,我們進一步引入了三個指標:1)包含率(IN-R)和填充率(FI-R),用於評估佈局控制;2)背景相似度(BG-S),用於衡量背景一致性。大量實驗表明,LAMIC在大多數主要指標上達到了最先進的性能:在所有設置中,它在ID-S、BG-S、IN-R和AVG分數上均優於現有的多參考基線,並在複雜合成任務中取得了最佳的DPG。這些結果展示了LAMIC在身份保持、背景保留、佈局控制和提示跟隨方面的卓越能力,所有這些均無需任何訓練或微調,展現了強大的零樣本泛化能力。通過繼承先進單參考模型的優勢並實現向多圖像場景的無縫擴展,LAMIC為可控多圖像合成建立了一種新的無需訓練的範式。隨著基礎模型的不斷發展,LAMIC的性能預計將相應提升。我們的實現代碼可在以下網址獲取:https://github.com/Suchenl/LAMIC。
為圖表生成精確、信息豐富且無幻覺的標題,對於視覺語言模型而言仍是一大挑戰,這主要歸因於缺乏大規模、高質量的現實世界圖表數據集。然而,現有的現實世界圖表數據集存在包含無法從圖表中推斷出的額外信息,以及未能充分捕捉結構元素和關鍵洞察的問題。因此,我們引入了ChartCap,這是一個包含565K張現實世界圖表圖像的大規模數據集,每張圖像都配備了類型特定的密集標題,這些標題排除了額外信息,並詳細突出了結構元素和關鍵洞察。為了構建ChartCap,我們設計了一個四階段流程,該流程僅利用圖表中可辨識的數據生成標題,並採用基於循環一致性的人工驗證,這在不犧牲準確性的前提下加速了質量控制。此外,我們提出了一種新穎的度量標準——視覺一致性分數,該分數通過比較從標題重新生成的圖表與原始圖表之間的相似性來評估標題質量,且不依賴於參考標題。大量實驗證實,基於ChartCap微調的模型能夠持續生成更為準確和信息豐富的標題,並減少幻覺,超越了開源和專有模型,甚至優於人工註釋的標題。
近期多模態大型語言模型(MLLMs)的進展,為具身代理中的代碼策略生成提供了更豐富的感知基礎。然而,現有系統大多缺乏有效機制來適應性地監控策略執行並在任務完成過程中修復代碼。在本研究中,我們提出了HyCodePolicy,這是一種基於混合語言的控製框架,它系統性地將代碼合成、幾何基礎、感知監控和迭代修復整合到具身代理的閉環編程循環中。技術上,給定一個自然語言指令,我們的系統首先將其分解為子目標,並生成一個基於對象中心幾何原語的初始可執行程序。該程序隨後在模擬中執行,同時視覺語言模型(VLM)觀察選定的檢查點以檢測和定位執行失敗並推斷失敗原因。通過融合捕捉程序級事件的結構化執行軌跡與基於VLM的感知反饋,HyCodePolicy推斷失敗原因並修復程序。這種混合雙重反饋機制實現了在最小人力監督下的自我校正程序合成。我們的結果表明,HyCodePolicy顯著提高了機器人操作策略的魯棒性和樣本效率,為將多模態推理整合到自主決策管道中提供了一種可擴展的策略。
線上市場將因代表消費者行事的自主AI代理而發生轉變。不再是人類瀏覽和點擊,視覺語言模型(VLM)代理能夠解析網頁、評估產品並進行交易。這引發了一個根本性問題:AI代理會購買什麼,以及為什麼?我們開發了ACES,這是一個沙盒環境,將一個與平台無關的VLM代理與一個完全可編程的模擬市場配對,以研究這一問題。我們首先在簡單任務的背景下進行基本理性檢查,然後通過隨機化產品位置、價格、評分、評論、贊助標籤和平台推薦,獲得了前沿VLM實際購物行為的因果估計。模型顯示出強烈但異質的位置效應:所有模型都偏好頂行,但不同模型偏好不同列,這削弱了普遍“頂部”排名的假設。它們對贊助標籤進行懲罰,並獎勵推薦。對價格、評分和評論的敏感性在方向上與人類相似,但在不同模型之間幅度差異顯著。受賣家使用AI代理優化產品列表的情境啟發,我們展示了一個賣方代理,通過針對AI買家偏好對產品描述進行微調,如果AI主導的購物成為主流,可以帶來顯著的市場份額增長。我們還發現,不同模型之間的模態產品選擇可能不同,在某些情況下,需求可能集中在少數幾款產品上,這引發了競爭問題。總之,我們的結果揭示了AI代理在電子商務環境中可能如何行為,並在AI主導的生態系統中提出了具體的賣家策略、平台設計和監管問題。
以場景為背景的自我中心人體運動生成與預測,對於提升AR/VR體驗、改善人機互動、推進輔助技術發展以及實現適應性醫療解決方案至關重要,其核心在於從第一人稱視角精準預測與模擬運動。然而,現有方法主要集中於結合結構化3D場景的第三人稱運動合成,這在實際的自我中心場景中效果受限,因為受限的視野、頻繁的遮擋以及動態攝像頭阻礙了場景感知。為彌補這一差距,我們引入了自我中心運動生成與自我中心運動預測兩項新任務,它們利用第一人視圖像進行場景感知的運動合成,無需依賴顯式的3D場景。我們提出了UniEgoMotion,這是一個統一的條件運動擴散模型,配備了專為自我中心設備設計的新穎頭部中心運動表示法。UniEgoMotion簡潔而高效的設計,在統一框架內支持從第一人視覺輸入進行自我中心運動重建、預測與生成。與以往忽視場景語義的工作不同,我們的模型有效提取基於圖像的場景上下文,以推斷出合理的3D運動。為促進訓練,我們引入了EE4D-Motion,這是一個源自EgoExo4D的大規模數據集,並增強了偽真實3D運動註釋。UniEgoMotion在自我中心運動重建上達到了最先進的性能,並首次實現了從單一自我中心圖像生成運動。廣泛的評估證明了我們統一框架的有效性,為自我中心運動建模設立了新基準,並為自我中心應用開辟了新的可能性。
文本-視頻檢索旨在從大規模線上數據庫中,根據給定的視頻(或文本)查詢,找到最相關的文本(或視頻)候選項。近期研究利用多模態大型語言模型(MLLMs)來提升檢索效果,特別是針對長篇或複雜的查詢-候選對。然而,我們觀察到,直接應用MLLMs,即基於候選項似然度的檢索,會引入候選項先驗偏差,傾向於那些本身具有較高先驗概率的候選項,而非與查詢更相關的選項。為此,我們提出了一種新穎的檢索框架——基於MLLM的雙向似然估計(BLiM),該框架通過訓練模型從給定視頻生成文本以及從給定文本生成視頻特徵,來同時利用查詢和候選項的似然度。此外,我們引入了候選項先驗歸一化(CPN),這是一個簡單而有效的無訓練分數校準模塊,旨在減輕候選項似然度中的候選項先驗偏差。在四個文本-視頻檢索基準測試中,配備了CPN的BLiM平均在R@1指標上超越了之前的最先進模型6.4分,有效緩解了候選項先驗偏差,並強調了查詢-候選項的相關性。我們在檢索之外的多模態任務上的深入分析,凸顯了CPN的廣泛適用性,它通過減少對文本先驗的依賴,增強了視覺理解能力。代碼可在https://github.com/mlvlab/BLiM獲取。
长上下文大型语言模型(LLMs),如Gemini-2.5-Pro和Claude-Sonnet-4,正日益被用于赋能先进的人工智能系统,包括检索增强生成(RAG)管道和自主代理。在这些系统中,LLM接收一条指令及一个上下文——通常由从知识数据库或记忆中检索的文本组成——并遵循指令生成一个上下文相关的响应。近期研究设计了解决方案,以追溯LLM生成响应时贡献最大的上下文文本子集。这些解决方案在现实世界中有诸多应用,包括执行攻击后的取证分析以及提升LLM输出的可解释性和可信度。尽管已付出显著努力,但如TracLLM等最先进的解决方案往往导致高昂的计算成本,例如,TracLLM对单个响应-上下文对执行追溯需耗时数百秒。在本研究中,我们提出了AttnTrace,一种基于LLM对提示产生的注意力权重的新上下文追溯方法。为有效利用注意力权重,我们引入了两项技术以增强AttnTrace的效能,并为我们的设计选择提供了理论见解。我们还对AttnTrace进行了系统性评估,结果表明,AttnTrace在准确性和效率上均优于现有的最先进上下文追溯方法。此外,我们展示了AttnTrace通过“检测前归因”范式,在长上下文下检测提示注入方面能够提升现有最先进方法的性能。作为一项实际应用,我们证明了AttnTrace能有效定位一篇旨在操纵LLM生成评论的论文中注入的指令。代码位于https://github.com/Wang-Yanting/AttnTrace。
低秩適應(LoRA)已成為高效微調大型語言模型(LLM)的標準工具。然而,即便是微小的LoRA更新也可能引發對齊漂移,通過糾纏的參數變化削弱安全性和行為約束。為解決這一問題,我們提出了對齊守護-LoRA(AGL),這是一個在微調過程中保持對齊的原則性框架。AGL引入了幾個關鍵組件:用於監督的主任務損失、基於費舍爾信息矩陣的正則化以限制在對齊敏感子空間中的更新,以及任務特定的正則化以穩定新知識的整合。我們進一步引入了碰撞感知正則化,融合了黎曼重疊——懲罰坐標方向上的干擾——和測地線分離——鼓勵不相交的更新幾何。我們精心設計了DriftCaps,這是一個針對安全和危險提示的診斷基準,旨在量化對齊漂移和安全性退化。實證評估表明,AGL在安全關鍵基準上將對齊漂移減少了高達50%,而不降低下游任務的性能。全面的消融實驗證實,每個組件在保持潛在安全行為方面都有獨特貢獻。最後,我們推導並驗證了災難性遺忘的縮放定律,揭示了AGL在保持適應動態的同時,平抑了微調後的損失上升。AGL是LoRA的一種結構性改進,確保了對齊的保持,且僅需最小的權衡。為鼓勵進一步探索和開發,我們開源了我們的實現。
代碼級別的補全功能是現代集成開發環境(IDE)中最關鍵的特性之一。它通過在編碼過程中建議相關的標識符和API來協助開發者。雖然補全通常來自靜態分析,但其實用性在很大程度上取決於它們的排序方式,因為埋藏在列表深處的正確預測很少被用戶看到。目前大多數系統依賴於手工設計的啟發式方法或基於用戶日誌訓練的輕量級機器學習模型,這些方法可以進一步改進以捕捉上下文信息並跨項目和編碼風格進行泛化。在本研究中,我們提出了一種新的評分方法,以輕量級且模型無關的方式使用語言模型對靜態補全進行排序。我們的方法將所有有效的補全組織成一個前綴樹,並執行一次貪婪解碼遍歷以收集整個樹的代碼級別分數。這使得無需使用束搜索、提示工程或模型適應即可實現精確的代碼感知排序。該方法快速、架構無關,並且與已部署的代碼補全模型兼容。這些發現突顯了將語言模型集成到IDE現有工具中的一條實用且有效的途徑,最終提供更智能、更響應迅速的開發者輔助。
針對人類價值觀進行微調的大型語言模型(LLMs)常出現對齊漂移現象,當遭遇對抗性提示、解碼擾動或改寫的越獄指令時,會生成不安全或違反政策的補全內容。儘管先前研究已從行為角度描述了對齊失敗的特徵,但對這些失敗背後訓練時期的信念來源知之甚少。我們提出了TraceAlign,這是一個統一框架,用於將不安全的補全內容追溯至模型訓練語料庫中的根本原因。我們方法的核心是信念衝突指數(BCI),它基於使用後綴數組匹配檢索到的訓練文檔,量化生成片段與對齊政策之間的語義不一致性。我們提出了三種互補的干預措施:(i)TraceShield,一種推理時的安全過濾器,拒絕包含高BCI片段的補全;(ii)對比信念解衝突損失,一種在DPO期間懲罰高BCI延續的對比微調目標;以及(iii)Prov-Decode,一種來源感知的解碼策略,預測會產生高BCI片段的波束擴展予以否決。這些防禦措施共同作用,在我們精心策劃的對齊漂移基準(ADB)上將對齊漂移減少高達85%,同時在標準任務上保持實用性,差異小於0.2,並提高了拒絕質量。我們進一步通過後綴數組片段統計推導出漂移可能性的理論上限,將記憶頻率和長度與對抗性重新激活風險聯繫起來。因此,TraceAlign提供了首個可擴展、可追溯且基於實證的工具包,用於理解和從源頭上緩解對齊失敗。為鼓勵進一步探索和開發,我們在以下地址開源了我們的實現:https://anonymous.4open.science/r/tracealign-2DA7。