每日精選AI研究論文及翻譯
大型語言模型在原始碼理解領域已取得顯著成就,然而隨著軟體系統規模擴大,計算效率已成為關鍵瓶頸。當前這些模型依賴基於文本的範式,將原始碼視為線性符號序列,這導致上下文長度及相關計算成本呈線性增長。多模態大型語言模型的快速發展帶來新契機:透過將原始碼轉譯為渲染圖像來優化效率。有別於文本壓縮容易導致語義流失,圖像模態天生具備壓縮適應性。透過調整解析度,圖像可縮減至原始符號成本的數分之一,同時仍能被視覺模型識別。為驗證此方法的可行性,我們針對多模態大模型在程式碼理解效能展開首項系統性研究。實驗結果表明:(1)多模態大模型能以最高8倍壓縮率實現有效程式碼理解;(2)該模型能有效利用語法突顯等視覺線索,在4倍壓縮率下提升程式碼補全效能;(3)程式碼克隆檢測等任務對視覺壓縮展現卓越韌性,部分壓縮比率甚至微幅超越原始文本輸入。本研究揭示了多模態大模型在程式碼理解領域的潛力與現行局限,指出圖像模態的程式碼表徵將成為實現高效推理的重要路徑。
語言智慧體在任務自動化方面展現出巨大潛力。為實現應對日益複雜的長週期任務的目標,業界逐漸興起以子智慧體作為工具的多次任務求解範式。然而現有設計仍缺乏對子智慧體的動態抽象視角,從而影響了系統適應性。我們通過提出統一且框架無關的智慧體抽象模型來解決這一挑戰,該模型將任何智慧體表述為(指令、上下文、工具、模型)四元組。此四元組作為能力組合的配方,使系統能按需為每個任務生成專用執行器。基於此抽象模型,我們提出名為AOrchestra的智慧體系統,其核心協調器在每一步驟具體化四元組:策劃任務相關上下文、選擇工具與模型,並通過即時自動創建智慧體進行任務委派。此設計能有效減少人工工程投入,保持框架無關性並提供即插即用式多樣化智慧體支援,同時實現可控的性能-成本權衡,使系統趨近帕累托最優。在三大挑戰性基準測試(GAIA、SWE-Bench、Terminal-Bench)中,AOrchestra搭配Gemini-3-Flash相比最強基準實現了16.28%的相對性能提升。程式碼已開源於:https://github.com/FoundationAgents/AOrchestra
本研究源於先前對思維鏈動力學的互補性觀察:研究顯示大型語言模型在思維鏈顯現前已存在潛在的後續推理規劃,從而削弱了顯性思維鏈的重要性;然而對於需要多步推理的任務,思維鏈仍具有關鍵作用。為深化對大型語言模型內部狀態與其言語化推理軌跡間關係的理解,我們透過探測方法Tele-Lens對跨領域任務的隱藏狀態進行分析,探究大型語言模型的潛在規劃能力。實證結果表明,大型語言模型呈現近視距特徵,主要進行增量式狀態轉換而缺乏精準的全局規劃。利用此特性,我們提出增強思維鏈不確定性估計的假設,並驗證僅需透過思維鏈中少量關鍵節點即可有效表徵整體路徑的不確定性。我們進一步強調開發思維鏈動力學的重要性,並展示無需犧牲性能即可實現思維鏈旁路自動識別。相關代碼、數據與模型已開源於:https://github.com/lxucs/tele-lens。
自動化人工智慧研究與一般軟體工程存在本質差異,其特點在於計算密集型的評估流程(例如模型訓練)與難以溯因的效能歸屬問題。當前基於大型語言模型的智慧體在此領域表現不佳,常生成忽略執行成本與因果關係的單體式腳本。我們提出MARS(具備反思式搜尋的模組化智慧體)框架,專為自主AI研究優化設計。該框架立足三大支柱:(1)透過成本受限的蒙地卡羅樹搜尋實現預算感知規劃,明確權衡效能與執行開銷;(2)採用「設計-分解-實作」管線的模組化建構策略,有效管理複雜研究程式庫;(3)比較式反思記憶機制,透過分析解決方案差異來提煉高價值洞見,解決功勞分配難題。在可比設定下,MARS於MLE-Bench開源框架中實現頂尖性能,與全球排行榜的領先方法保持競爭力。更值得注意的是,系統展現出質性化的「頓悟」時刻——所有被採用的經驗中有63%源自跨分支遷移,這證明該智慧體能有效實現搜尋路徑間的洞察泛化。
儘管大型語言模型在短期任務上表現卓越,但將其擴展至長時序智能體工作流仍面臨挑戰。核心瓶頸在於缺乏能捕捉真實長程依賴結構與跨階段演化動態的訓練數據——現有合成方法要麼受限於模型分佈而侷限於單一特徵場景,要麼需要耗費高昂的人工標註成本,無法提供可擴展的高質量監督信號。我們通過重構軟體演化視角下的數據合成方法來解決這一問題。關鍵洞察在於:拉取請求序列天然具備長時序學習所需的監督信號。它們將複雜目標分解為可驗證的提交單元,在迭代中保持功能連貫性,並通過錯誤修復歷史編碼真實的改進模式。基於此,我們提出daVinci-Agency框架,通過三個互鎖機制從PR鏈中系統化挖掘結構化監督信號:(1) 通過連續提交實現漸進式任務分解,(2) 經由統一功能目標實施長期一致性約束,(3) 從真實錯誤修復軌跡中提取可驗證的改進路徑。有別於將各步驟獨立處理的合成軌跡,daVinci-Agency基於PR的結構本質上保留了因果依賴關係與迭代優化過程,這對培養持續性目標導向行為至關重要,並能自然對齊專案級全週期任務建模。生成的軌跡規模龐大——平均達85k個標記和116次工具調用——卻具有顯著的數據效率:使用239個daVinci-Agency樣本對GLM-4.6進行微調後,在多項基準測試中實現廣泛提升,尤其在Toolathlon上取得47%的相對增益。除基準性能外,我們的分析進一步證實...
現有的人類動作控制影片生成方法通常依賴二維姿勢或顯式三維參數模型(如SMPL)作為控制信號。然而,二維姿勢會將動作剛性綁定於驅動視角,無法實現新視角合成。顯式三維模型雖具結構信息,但存在固有誤差(如深度模糊性與動態不準確性),當作為強約束使用時,會覆蓋大規模影片生成器內在的強大三維感知能力。本研究從三維感知視角重新審視動作控制,主張採用與生成器空間先驗自然契合的隱式、視角無關動作表徵,而非依賴外部重建的約束。我們提出3DiMo方法,通過聯合訓練動作編碼器與預訓練影片生成器,將驅動影格提煉為緊湊的視角無關動作標記,並經由交叉注意力進行語義注入。為增強三維感知,我們採用多視角監督(即單視角、多視角及運動相機影片)進行訓練,強制模型在不同視角下保持動作一致性。此外,通過輔助幾何監督僅在早期初始化階段利用SMPL模型,並逐步衰減至零,使模型能從外部三維指導過渡至從數據和生成器先驗中學習真實的三維空間運動理解。實驗證實,3DiMo能精準復現驅動動作並實現靈活的文本驅動相機控制,在動作保真度與視覺品質上均顯著超越現有方法。
世界模型已成為人工智慧研究的關鍵前沿,其目標是通過注入物理動態與世界知識來增強大型模型。核心目標在於使智能體能夠理解、預測並與複雜環境互動。然而當前研究格局仍呈現碎片化,主流方法多側重於將世界知識注入孤立任務(如視覺預測、三維估計或符號接地),而非建立統一的定義或框架。儘管這類任務特定整合能提升性能,卻往往缺乏整體世界理解所需的系統性協調。本文剖析了碎片化方法的局限性,提出世界模型的統一設計規範。我們主張,健全的世界模型不應是能力的鬆散集合,而應成為融合互動、感知、符號推理與空間表徵的規範性框架。此研究旨在提供結構化視角,引導未來研究朝向更具通用性、穩健性及原則性的世界模型發展。
可驗證獎勵強化學習(RLVR)已成為提升大型語言模型推理能力的關鍵方法。然而,標準框架如群組相對策略優化(GRPO)通常採用均勻的推演預算分配,導致資源效率低下。現有自適應方法雖常依賴實例級指標(如任務通過率),卻未能捕捉模型的動態學習狀態。為解決這些侷限性,我們提出CoBA-RL演算法,該強化學習方法能根據模型演化能力自適應分配推演預算。具體而言,CoBA-RL利用面向能力的價值函數將任務映射至其潛在訓練收益,並採用基於堆疊的貪婪策略,將計算資源高效自校準分配至高訓練價值樣本。大量實驗表明,我們的方法能有效權衡探索與利用,在多個具挑戰性的基準測試中實現持續的泛化效能提升。這些發現證實:量化樣本訓練價值並優化預算分配,對推進大型語言模型後訓練效率具有關鍵作用。
分佈匹配蒸餾(DMD)通過對齊多步生成器與其少步對應模型,實現了低推理成本下的高質量生成。然而,DMD容易陷入模式崩塌,因為其反向KL散度公式本質上會激發模式尋求行為。現有解決方案通常依賴感知或對抗正則化,但這會帶來大量計算開銷和訓練不穩定性。本文提出一種角色分離的蒸餾框架,明確區分蒸餾步驟的職能:第一步通過目標預測(如v-prediction)目標專注於保持樣本多樣性,後續步驟則在標準DMD損失下專注於質量提升,同時在第一步阻斷DMD目標的梯度回傳。我們將此方法稱為多樣性保持型DMD(DP-DMD)。該方法儘管設計簡潔——無需感知骨幹網絡、判別器、輔助網絡或額外真實圖像——卻能在大量文本到圖像實驗中保持樣本多樣性,並達到與前沿方法相當的視覺質量。
近期大语言模型(LLM)的突破性进展使得软件工程智能体能够处理复杂的代码修改任务。现有方法大多依赖容器化环境的执行反馈,这需要依赖项完备的环境配置及程序与测试的物理执行。尽管有效,该范式存在资源消耗大、维护困难的问题,显著增加了智能体训练复杂度并限制了可扩展性。我们提出SWE-World——一种无需Docker的框架,通过习得的替代模型取代物理执行环境来训练和评估软件工程智能体。该框架基于真实智能体-环境交互数据训练LLM模型,用以预测中间执行结果与最终测试反馈,使智能体无需与物理容器环境交互即可学习。此设计在保留标准智能体-环境交互循环的同时,消除了智能体优化与评估过程中昂贵的环境构建和维护成本。此外,由于SWE-World能模拟候选轨迹的最终评估结果而无需真实提交,它支持在多次测试尝试中筛选最优解,从而助力软件工程任务中有效的测试时扩展(TTS)。在SWE-bench Verified上的实验表明:通过无Docker监督微调,Qwen2.5-Coder-32B的性能从6.2%提升至52.0%;结合无Docker强化学习可达55.0%;进一步应用TTS后达到68.2%。代码已开源于https://github.com/RUCAIBox/SWE-World。
在本技术报告中,我们推出SWE-Master——一个开源且完全可复现的后训练框架,用于构建高效的软件工程智能体。该框架系统性地探索了完整的智能体开发流程,包括教师轨迹合成与数据筛选、长周期监督微调、基于真实执行反馈的强化学习以及推理框架设计。以初始软件工程能力有限的开源基础模型为起点,SWE-Master展示了系统化优化方法如何有效激发模型解决长周期软件工程任务的能力。我们在SWE-bench Verified(面向真实软件工程任务的标准基准测试)上对SWE-Master进行评估。在相同实验设置下,采用Qwen2.5-Coder-32B模型的本方案实现了61.4%的任务解决率,显著超越现有开源基线。通过进一步结合基于LLM的环境反馈进行测试时扩展,SWE-Master在TTS@8设置下达到70.8%的解决率,展现出强劲的性能潜力。该框架为推进软件工程智能体的可复现研究提供了实用且透明的技术基础。项目代码已发布于https://github.com/RUCAIBox/SWE-Master。
当前,由于缺乏可验证的奖励信号,对深度研究报告生成系统进行训练与评估仍具挑战性。因此,基于量规的评估方法已成为主流实践。然而,现有方案要么依赖粗粒度的预设量规导致评估精度不足,要么采用人工构建的查询定制化量规,存在成本高昂且难以扩展的问题。本文提出一种针对深度研究报告生成任务、训练符合人类偏好的查询定制化量规生成器的技术路径。我们首先构建包含人类对成对报告偏好的深度研究式查询数据集,随后通过结合人类偏好监督与基于大语言模型的量规评估的混合奖励机制,采用强化学习训练量规生成器。为提升长程推理能力,我们进一步设计了多智能体马尔可夫状态工作流用于报告生成。实验表明,相较于现有量规设计策略,我们提出的量规生成器能提供区分度更高且更符合人类偏好的监督信号。此外,当整合至多智能体马尔可夫状态训练框架时,配备本量规生成器的深度研究系统在DeepResearch Bench基准测试中持续超越所有开源基线模型,并与领先闭源模型性能相当。
平行思維已成為一種頗具前景的推理範式,但其計算負擔相當可觀。現有效率優化方法主要依賴局部化的單軌跡信號,缺乏利用平行分支間全局動態的機制化設計。我們提出二維探測技術,通過定期獲取所有分支的中間答案,揭示平行思維的寬度-深度動態特性。分析結果揭示三大關鍵發現:寬度-深度資源分配的非單調擴展規律、推理分支長度的異質性特徵,以及全局共識的早期穩定現象。基於這些發現,我們開發了Parallel-Probe無訓練控制器,用於在線優化平行思維。該控制器採用共識驅動的早停機制調控推理深度,結合偏差感知的分枝剪枝動態調整寬度。在三大基準測試和多重模型上的實驗表明,Parallel-Probe能建立更優的測試時擴展帕累托邊界。相比標準多數表決機制,在保持競爭性準確度的同時,可將序列標記量減少35.8%,總標記成本降低逾25.8%。
近期多模态奖励模型的突破性进展显著推动了视觉生成领域的发展。现有框架通常采用布拉德利-特里式偏好建模方法,或利用生成式视觉语言模型作为评判器,继而通过强化学习优化视觉生成模型。然而当前奖励模型存在固有局限:它们往往遵循"一刀切"范式,要么假设存在统一的偏好分布,要么依赖固定评估标准。这导致模型对内容特定的视觉线索不敏感,从而与主观且依赖语境的人类偏好产生系统性偏差。为此,我们借鉴人类评估机制提出UnifiedReward-Flex——一种融合奖励建模与柔性语境自适应推理的统一个性化视觉生成奖励模型。具体而言,给定提示词与生成视觉内容,该模型首先解析语义意图并基于视觉证据进行锚定,继而通过实例化预定义和自主生成的高维标准下的细粒度评估准则,动态构建分层评估体系。我们的训练流程采用两阶段策略:首先从先进闭源视觉语言模型蒸馏高质量结构化推理轨迹,通过监督微调赋予模型柔性语境自适应推理能力;随后对精心筛选的偏好对进行直接偏好优化,进一步增强推理忠实度与判别对齐效果。为验证有效性,我们将UnifiedReward-Flex集成至GRPO框架进行图像与视频生成实验,大量结果表明该模型的优越性。
重排序是现代检索系统的关键组成部分,通常通过将高效初阶检索器与更具表现力的模型相结合来优化结果。尽管大型推理模型已推动文本重排序技术快速发展,但基于推理的视频检索重排序研究仍处于探索不足的状态。为解决这一空白,我们提出RANKVIDEO——一种基于推理的视频检索重排序器,能够显式地对查询-视频对进行推理,利用视频内容评估相关性。该模型采用两阶段课程训练:首先进行基于感知的监督微调,随后结合点式、对式排序目标及教师置信度蒸馏目标进行重排序训练,并辅以专门构建推理密集型查询-视频对的数据合成流程。在大规模MultiVENT 2.0基准测试上的实验表明,RANKVIDEO在双阶段检索框架中持续提升检索性能,nDCG@10指标平均提升31%,在保持更高效率的同时优于纯文本及视觉-语言重排序方案。
尽管可验证奖励的强化学习(RLVR)推动了大型语言模型的推理能力发展,但在有限采样预算下,其探索效率低下的问题仍制约着发展,导致复杂任务中采样成功率低且训练不稳定。我们发现许多探索失败并非源于问题难度,而是由少量引发干扰的提示词元所致。基于这一发现,我们提出低噪声采样框架(LENS):首先通过识别并移除干扰词元进行提示净化,随后将净化过程中的成功采样结果迁移至原始含噪提示,监督策略优化过程,使模型学会在真实世界的含噪提示环境中忽略干扰。实验表明,LENS显著优于GRPO,实现了更高性能与更快收敛——平均性能提升3.88%,收敛速度加快1.6倍以上。本研究揭示了剪枝干扰词元对提升采样效率的关键作用,为RLVR研究提供了新视角。
搜尋智能正從深度研究(Deep Research)向廣度研究(Wide Research)演進,這一範式對於在複雜約束條件下並行檢索與綜合全面資訊至關重要。然而,該領域的發展因缺乏針對搜尋廣度的專用基準與優化方法而受阻。為應對這些挑戰,我們從數據管道(Data Pipeline)和智能體優化(Agent Optimization)兩個維度深入探討廣度研究。首先,我們通過嚴謹的多階段數據管道構建了WideSeekBench——一個通用廣域資訊搜尋(GBIS)基準,確保其在目標資訊量、邏輯約束和領域分佈上的多樣性。其次,我們提出WideSeek動態分層多智能體架構,能夠根據任務需求自主派生並行子智能體。此外,我們設計了統一訓練框架,通過對多智能體軌跡進行線性化處理,並採用端到端強化學習實現系統優化。實驗結果驗證了WideSeek與多智能體強化學習的有效性,表明擴展智能體數量是推進廣度研究範式的重要方向。
在离散生成建模领域,两种主流范式展现出不同的能力特性:掩码扩散语言模型(MDLM)擅长语义理解和零样本泛化,而均匀噪声扩散语言模型(UDLM)则能实现优质少步生成,但二者均无法在理解与生成维度取得平衡。为此,我们提出XDLM模型,通过平稳噪声核桥接这两种范式。XDLM的核心贡献包括:(1)从理论层面统一MDLM与UDLM,将二者转化为本框架的特例;(2)通过后验概率的代数简化缓解记忆瓶颈问题。实验表明,XDLM成功推进了理解能力与生成质量的帕累托前沿。定量分析显示,XDLM在零样本文本基准上超越UDLM达5.4分,在少步图像生成中显著优于MDLM(FID指标54.1对80.8)。当扩展至80亿参数大语言模型调优时,XDLM仅用32步即达到15.0的MBPP分数,实现基线性能翻倍。最后,训练动态分析揭示了XDLM在长期扩展方面的卓越潜力。代码已开源:https://github.com/MzeroMiko/XDLM
同倫範式作為解決複雜問題的通用原理,廣泛存在於魯棒優化、全局優化、多項式求根和抽樣等領域。針對這些問題的實際求解器通常採用預測-校正架構,但依賴人工設計的步長與迭代終止啓發式規則,這些規則往往存在次優性且僅適用於特定任務。為此,我們將上述問題統一於單一框架,據此設計出通用神經求解器。基於此統一視角,我們提出神經預測-校正器,用自動學習的策略替代人工啓發規則。該方法將策略選擇建模為序列決策問題,通過強化學習自動發現高效求解策略。為提升泛化能力,我們引入攤銷訓練機制,實現對問題類別的一次性離線訓練及新實例的高效在線推理。在四個典型同倫問題上的實驗表明,本方法能有效泛化至未見實例,在效率上持續超越經典方法與專用基線,並展現出跨任務的卓越穩定性,彰顯了將同倫方法統一至神經框架的價值。
注意力机制的二次复杂度始终是大型语言模型长上下文推理的核心瓶颈。现有加速方法要么采用结构化模式对注意力图进行稀疏化,要么在特定层级永久淘汰部分词元,这些方法可能保留无关词元或依赖不可逆的早期决策,未能充分考虑词元重要性在层级和注意力头间的动态变化。本文提出词元稀疏注意力机制,这是一种轻量级动态词元稀疏化方法,在注意力计算过程中将每个注意力头的Q、K、V压缩至精简词元集,随后将输出解压缩回原始序列,使得词元信息能在后续层级中被重新评估。该机制在词元选择与稀疏注意力的交叉领域开辟了新的设计维度。我们的方法完全兼容包括Flash Attention在内的稠密注意力实现方案,并能与现有稀疏注意力内核无缝集成。实验结果表明,词元稀疏注意力能持续优化精度-延迟权衡,在128K上下文长度下实现最高3.23倍的注意力加速,且精度损失小于1%。这些结果证明,动态交错式的词元级稀疏化是扩展长上下文推理能力的一种互补且有效的策略。
协助非专业用户开发复杂交互式网站已成为LLM驱动代码智能体的热门任务。然而现有代码智能体往往仅能生成前端网页,通过炫目的视觉效果掩盖其缺乏真实全栈数据处理与存储能力的缺陷。值得注意的是,构建生产级全栈网络应用的挑战远大于单纯生成前端页面,需要精细控制数据流、全面理解持续更新的软件包与依赖关系,并准确定位代码库中的隐蔽错误。为解决这些难题,我们推出FullStack-Agent——一个统一的全栈智能体编码系统,包含三个核心组件:(1)FullStack-Dev:具备强规划能力、代码编辑、代码库导航及错误定位功能的多智能体框架;(2)FullStack-Learn:创新的数据扩展与自我提升方法,通过反向翻译爬取及合成的网站资源库来优化FullStack-Dev的骨干大语言模型;(3)FullStack-Bench:系统性测试生成网站前端、后端及数据库功能的综合基准。我们的FullStack-Dev在前端、后端和数据库测试案例上分别以8.7%、38.2%和15.9%的优势超越此前最优方法。此外,FullStack-Learn通过自我提升使30B参数模型在三组测试案例上的性能分别提升9.7%、9.5%和2.8%,证明了我们方法的有效性。代码已发布于https://github.com/mnluzimu/FullStack-Agent。
确定高效的数据混合比例是大型语言模型预训练的关键因素,模型需要在通用能力与数学、编程等高难度任务的专业性之间取得平衡。然而现有方法要么依赖不可靠的小规模代理实验,要么需耗费巨资进行大规模探索,使得最优混合比例的确定仍面临挑战。为此,我们提出解耦式训练混合搜索框架DeMix,该创新框架通过模型融合技术预测最优数据配比。与为每个采样混合比例训练代理模型不同,DeMix首先对候选数据集进行规模化组件模型训练,再通过加权模型融合推导数据混合代理指标。这种范式将搜索成本与训练成本解耦,无需额外训练即可评估无限采样混合比例,从而通过更多搜索尝试发现更优配比。大量实验表明,DeMix突破了充分性、准确性与效率之间的权衡关系,能以更低搜索成本获得基准表现更优的混合方案。我们还开源了DeMix Corpora——一个包含22万亿token高质量预训练数据及已验证混合方案的完整数据集,以促进开放研究。相关代码与数据集详见https://github.com/Lucius-lsr/DeMix。
自适应多模态推理已成为视觉语言模型领域的前沿方向,其核心在于动态协调工具增强的视觉推理与文本推理,以提升模型效能与效率。然而现有评估方法依赖静态难度标签和单一指标,既无法捕捉任务难度随模型能力变化的动态特性,也难以区分自适应模式选择与通用性能的差异,同时缺乏细粒度的过程分析。本文提出AdaptMMBench综合评估基准,涵盖现实场景、文字识别、图形界面、知识应用与数学推理五大领域,包含直接感知与复杂推理双重任务。该基准采用马修斯相关系数量化不同推理模式的选择合理性,通过基于模型能力边界动态标定任务难度,实现对元认知能力的精准评估。此外,AdaptMMBench支持关键步骤覆盖度、工具效用和计算效率等多维过程评估。实验表明:自适应模式选择能力虽随模型规模提升,但与最终准确率显著解耦;关键步骤覆盖度与性能表现正相关,而工具效用在各模型架构间存在显著差异。
理解文化需要跨越情境、传统与隐性社会知识进行推理,这远非简单记忆孤立事实所能及。然而现有大多数聚焦文化的问答评测基准仍依赖于单跳问题,这种设置可能让模型通过浅层线索取巧,而非展现真正的文化推理能力。本研究推出ID-MoCQA——首个基于印尼传统文化构建的大规模多跳问答数据集,提供英语与印尼语双版本,专门用于评估大语言模型的文化理解能力。我们提出一种创新框架,能系统地将单跳文化问题转化为涵盖六种线索类型(如常识型、时间型、地理型)的多跳推理链。通过结合专家评审与LLM即评判的过滤机制,我们构建的多阶段验证流程确保了问答对的高质量。对前沿模型的评估结果表明,现有系统在文化推理方面存在显著不足,尤其在需要精细推理的任务上表现薄弱。ID-MoCQA为推动大语言模型文化认知能力的发展提供了兼具挑战性与必要性的评测基准。
自回归视频世界模型能够根据动作条件预测未来的视觉观测。尽管在短时间范围内效果显著,这类模型往往难以实现长时序生成,因为微小的预测误差会随时间累积。现有方法通过引入预训练的教师模型和序列级分布匹配来缓解此问题,但这会带来额外计算成本,且无法阻止误差超出训练时长范围的传播。本研究提出LIVE(长时序交互式视频世界模型),通过新颖的循环一致性目标强制实现有界误差累积,从而无需基于教师模型的蒸馏。具体而言,LIVE首先从真实帧执行前向推演,随后应用反向生成过程重构初始状态。扩散损失函数在重构的终止状态上计算,从而为长时序误差传播提供显式约束。此外,我们建立了涵盖不同方法的统一框架,并引入渐进式训练课程以稳定训练过程。实验表明,LIVE在长时序基准测试中实现了最先进的性能,能够生成远超训练推演时长的高质量稳定视频。
模态遵循能力是多模态大语言模型根据用户指令选择性利用多模态语境的核心机制,对保障实际应用中的安全性与可靠性至关重要。然而,该决策过程的底层运作机理尚不明确。本文通过信息流视角探究其工作机制,发现指令标记在模态仲裁中发挥结构性锚点作用:浅层注意力层执行非选择性信息传递,将多模态线索路由至这些锚点形成潜在缓冲;深层注意力层在指令意图引导下完成模态竞争决策,而MLP层则表现出语义惯性,形成对抗性力量。此外,我们识别出驱动该仲裁过程的稀疏化专用注意力头群。因果干预实验表明,仅需操控5%的关键注意力头,即可通过阻断机制使模态遵循率降低60%,或通过对失败样本的定向增强使其提升60%。本研究为模型可解释性提供了重要突破,并为多模态信息的协同调控建立了理论框架。
在多LLM智能体系统中,角色特化通常通过多LoRA适配器实现——智能体共享预训练主干网络,仅通过轻量级适配器区分。尽管共享基础模型权重,但各智能体会为相同的长工具增强轨迹独立构建并存储各自的KV缓存,导致显著的内存与计算开销。现有KV缓存共享方法大多忽视了这种多LoRA场景。我们观察到,不同智能体间的缓存差异主要源于适配器输出,而共享预训练主干网络的激活值仍保持高度相似。基于此发现,我们提出LRAgent:一种面向多LoRA智能体的KV缓存共享框架,将缓存解耦为来自预训练权重的共享基础组件和来自LoRA权重的适配器相关组件。LRAgent通过共享基础组件并以固有低秩形式存储适配器组件来降低内存开销,并借助共享注意力机制的多LoRA架构,通过共享低秩缓存并避免对其他智能体已处理上下文的冗余计算,进一步减少计算开销。为实现运行时高效重构适配器贡献,我们提出Flash-LoRA-Attention核函数,通过重排序注意力计算避免将低秩缓存展开至完整维度。在智能体问答基准测试中,LRAgent实现了接近全共享缓存的吞吐量与首词延迟,同时保持与非共享缓存基线相近的准确率。
整合搜索的推理能力使语言智能体能够通过主动查询外部资源来超越静态参数化知识的限制。然而,基于强化学习的训练方法面临着多尺度信用分配问题的阻碍:现有方法通常依赖稀疏的轨迹级奖励,无法区分高质量推理与偶然猜测,导致产生冗余或误导性的搜索行为。为此,我们提出Search-R2框架,通过演员-优化器协同机制实现针对性干预增强推理,两个组件在训练过程中联合优化。该框架将生成过程解构为演员模块(生成初始推理轨迹)和元优化器模块(通过"截断-再生"机制选择性诊断并修复缺陷步骤)。为提供细粒度监督,我们设计了耦合结果正确性与检索证据信息密度的混合奖励机制。理论层面,我们将演员-优化器交互形式化为平滑混合策略,证明选择性修正能带来严格优于强基线的性能提升。在多种通用及多跳问答数据集上的实验表明,Search-R2在不同模型规模下均显著优于基于检索增强生成和强化学习的基线方法,以最小开销实现了更优的推理精度。
随着大型语言模型(LLMs)从精选训练集步入开放式的真实世界环境,一个根本性局限逐渐显现:静态训练无法跟上持续变化的部署环境节奏。虽然扩展训练时与推理时的算力能提升静态能力,却无法弥合训练与部署间的鸿沟。我们认为解决这一局限需要引入新的扩展维度——进化。现有的部署时适应方法,无论是参数微调还是启发式记忆积累,都缺乏诊断故障并实现持久改进的战略能动性。我们的观点是:具身化进化将成为LLM适应的必然趋势,使进化本身从固定流程升格为自主进化智能体。基于这一构想,我们提出通用框架A-Evolve,将部署时改进视为针对持久系统状态的定向目标优化过程。进一步地,我们提出"进化扩展假说":适应能力随进化分配算力而扩展,使具身化进化成为实现现实世界中持续开放式适应的可扩展路径。
我们推出WorldVQA基准测试,旨在评估多模态大语言模型(MLLMs)的原子化视觉世界知识。与当前常将视觉知识检索与推理能力混为一谈的评估方式不同,WorldVQA通过解耦这两种能力来严格衡量“模型记忆的内容”。该基准测试通过分层分类体系(从常见头部类别对象到长尾稀有实体)评估模型对视觉实体的定位与命名能力。我们期望WorldVQA能成为视觉事实性的严格检验标准,从而为评估当前及下一代前沿模型的百科全书式知识广度与幻觉率建立规范。
基於大型語言模型(LLM)的自動化智能體有望端到端地加速科學發現,但如何嚴格評估其可驗證的發現能力仍是核心挑戰。現有基準面臨兩難抉擇:要么過度依賴LLM作為評判者來評估自動生成的研究成果,要么優化便捷但孤立的性能指標,這些指標僅能粗糙地替代科學洞察力。為解決這一缺陷,我們推出FIRE-Bench(全週期洞察重現評估基準),該基準通過重現近期高影響力機器學習研究中已確立的發現成果來評估智能體。智能體僅獲取從已發表驗證研究中提取的高層次科學問題,即需自主探索思路、設計實驗、編寫代碼、執行計劃,並得出有實證依據的結論。我們在FIRE-Bench上評估了多款採用前沿LLM(如GPT-5)的頂尖智能體。結果表明,全週期科研對現有智能體系統仍具挑戰性:即便最強智能體的重現成功率也較低(F1分數<50),不同運行結果差異顯著,且在實驗設計、執行與證據推理方面呈現重複性錯誤模式。FIRE-Bench為衡量智能體驅動的可靠科學發現進展提供了嚴謹且具診斷性的評估框架。
在多模态视觉语言理解领域,实现物体与对应文本描述的精准对齐既是基础性挑战,也是现实需求。当前的多模态嵌入模型虽在全局图文对齐方面表现优异,但在图像区域与特定短语的细粒度对齐上仍存在不足。本研究提出ObjEmbed——一种创新的多模态大语言模型嵌入框架,通过将输入图像解构为多个对应独立物体的区域嵌入及全局嵌入,可同时支持视觉定位、局部图像检索和全局图像检索等多样化视觉理解任务。该模型具备三大核心特性:(1)面向对象的表征:通过为每个区域生成语义匹配用的物体嵌入和预测定位质量的交并比嵌入,同步捕获物体的语义特征与空间属性,最终结合语义相似度与预测交并比实现更精准的检索;(2)多任务适配性:可无缝处理区域级与图像级任务;(3)高效编码机制:单次前向传播即可完成图像内所有物体及整图的编码。在18个多样化基准测试中的卓越表现,验证了其强大的语义判别能力。
大規模CT掃描中的泛癌篩查對現有AI方法仍具挑戰性,主要難點在於定位大尺寸CT體積數據中多類微小病灶的困難性。極端的病灶-背景比例失衡嚴重阻礙模型聚焦病變區域,而對健康區域的冗餘關注不僅降低效率,更會增加假陽性結果。受放射科醫師"掃視-聚焦"診斷策略啟發,我們提出GF-Screen框架——一種用於泛癌篩查的強化學習掃視-聚焦機制。該框架採用掃視模型定位病變區域,聚焦模型精準分割病灶,並通過強化學習將聚焦模型的分割結果作為獎勵信號反饋給掃視模型。具體而言,掃視模型從全尺寸CT體積中截取多個子區域,學習篩選含病灶子區域供聚焦模型分割。針對選擇操作不可微分導致的訓練難題,我們創新性地利用分割結果構建獎勵機制。為優化掃視模型,提出群組相對學習範式,通過組內優勢度比較優先保留高價值預測、淘汰低價值預測,在提升效率的同時有效抑制假陽性。此方法首次成功將前沿強化學習技術應用於泛癌篩查的特殊挑戰。在涵蓋9類病灶的16個內部數據集和7個外部數據集上的大量實驗驗證了GF-Screen的有效性。值得注意的是,該方法在MICCAI FLARE25泛癌挑戰賽公開驗證榜單中遙遙領先,較FLARE24冠軍方案實現顯著提升(DSC提升25.6%,NSD提升28.2%)。
近期,利用强化学习在现实世界任务(如多轮代码生成)上训练大语言模型的研究备受关注。虽然在线强化学习通常比离线强化学习表现更优,但其较高的训练成本和不稳定性限制了广泛应用。本文基于多轮代码生成可被构建为单步可恢复马尔可夫决策过程这一观察,提出了基于离线轨迹的上下文赌博机学习方法Cobalt,该方法融合了在线与离线强化学习的优势。Cobalt首先使用参考大语言模型收集代码生成轨迹,并将其分割为部分轨迹作为上下文提示。随后在在线赌博机学习阶段,通过单步代码生成训练大语言模型完成每个部分轨迹提示。实验表明,Cobalt在LiveCodeBench基准上显著优于基于GRPO和VeRPO的两种多轮在线强化学习基线方法,并将R1-Distill 8B和Qwen3 8B模型的绝对Pass@1分数分别提升最高达9.0分和6.2分。此外,我们分析了大语言模型的上下文奖励破解行为,并通过引入扰动轨迹增强Cobalt训练以缓解该问题。总体而言,我们的结果证明Cobalt是处理多轮代码生成等迭代决策任务的有效方案。代码与数据已开源:https://github.com/OSU-NLP-Group/cobalt。
尽管视觉语言模型(VLMs)近期取得了进展,现有方法仍难以基于用户特定经历生成个性化回应,因其缺乏将视觉输入与用户累积的视觉-文本语境相关联的能力。我们首次将这一挑战定义为语境化视觉个性化,要求VLMs在解读新图像时能够对个性化视觉体验进行视觉识别与文本检索。为解决该问题,我们提出CoViP统一框架,将个性化图像描述作为语境化视觉个性化的核心任务,并通过基于强化学习的后训练与描述增强生成技术提升该能力。我们还引入诊断性评估方法,明确排除文本捷径解决方案,验证VLMs是否真正利用了视觉语境。大量实验表明,现有开源与专有VLMs存在明显局限性,而CoViP不仅提升了个性化图像描述性能,还在下游个性化任务中实现全面增益。这些成果凸显CoViP为实现鲁棒且可泛化的语境化视觉个性化奠定了关键基础。
大型语言模型(LLM)与视觉语言模型(VLM)已展现出卓越的能力,但其部署受制于高昂的计算成本。现有结构化剪枝方法虽具备硬件效率优势,却常伴随显著的精度损失。本文认为该问题源于阶段不可知的剪枝策略忽视了预填充阶段与解码阶段的不对称性。通过引入虚拟门控机制,我们的重要性分析表明:深层网络对下一词元预测(解码)至关重要,但在上下文编码(预填充)过程中存在大量冗余。基于此发现,我们提出预填充专用剪枝(POP)——一种阶段感知推理策略,在计算密集的预填充阶段安全剔除深层网络,同时为敏感的解码阶段保留完整模型。为实现阶段间无缝切换,我们采用独立键值投影机制维持缓存完整性,并通过边界处理策略确保首生成词元的准确性。在Llama-3.1、Qwen3-VL和Gemma-3等多模态模型上的实验表明,POP可实现最高1.37倍的预填充加速比且性能损失极小,有效突破了现有结构化剪枝方法在精度与效率间的权衡局限。
图形用户界面(GUI) grounding 技术旨在将自然语言指令转化为可执行的屏幕坐标,从而实现自动化界面交互。然而,错误的坐标定位可能引发代价高昂且难以逆转的操作(如错误支付授权),这引发了人们对模型可靠性的担忧。本文提出SafeGround——一种面向GUI定位模型的不确定性感知框架,通过测试前的校准过程实现风险感知预测。该框架采用分布感知的不确定性量化方法,能够捕捉任意给定模型输出中随机样本的空间离散特性。随后通过校准过程,SafeGround可在统计层面保证错误发现率(FDR)受控的前提下,推导出测试阶段的决策阈值。我们在挑战性基准数据集ScreenSpot-Pro上对多种GUI定位模型应用SafeGround。实验结果表明:我们的不确定性度量方法在区分正误预测方面持续优于现有基线,而经过校准的阈值不仅能实现严格的风险控制,更展现出显著提升系统级准确率的潜力。在多种GUI定位模型中,SafeGround相较纯Gemini推理可将系统级准确率最高提升5.38个百分点。
大型語言模型(LLMs)的最新進展為加速科學研究開闢了新途徑。儘管模型在協助常規任務方面日益成熟,但其在推動專家級數學新發現方面的能力仍待探索。本文通過一系列案例研究,展示研究人員如何與基於Google Gemini架構的高級AI模型(特別是Gemini Deep Think及其進階變體)成功協作,解決了理論計算機科學、經濟學、優化理論和物理學等多個領域的開放性問題,推翻既有猜想並生成新證明。基於這些實踐經驗,我們提煉出理論研究中有效人機協作的通用技法,包括迭代優化、問題分解與跨學科知識遷移。雖然大部分成果源自這種交互式對話方法,我們也特別展示了超越標準聊天界面的創新應用:將模型部署為嚴格的對抗性評審員以檢測證明中的細微謬誤,以及將其嵌入「神經符號」循環中自主編寫並執行代碼來驗證複雜推導。這些案例共同表明,AI不僅能作為自動化工具,更能在科學發現的創造性進程中成為多功能的真實合作夥伴。
基于变换的隐私保护人脸识别(PPFR)旨在验证身份的同时,隐藏面部数据免受攻击者和恶意服务提供商的窥探。现有评估大多将隐私等同于抵抗像素级重建的能力,并以PSNR和SSIM作为衡量标准。我们证明这种以重建为中心的视角存在缺陷。本文提出FaceLinkGen攻击方法,可直接从受保护的模板中执行身份关联/匹配及人脸再生,而无需恢复原始像素。在三种最新PPFR系统上的实验表明,FaceLinkGen实现了超过98.5%的匹配准确率和96%以上的再生成功率,即使在近乎零知识的场景下仍保持92%的匹配准确率与94%的再生成功率。这些结果揭示了PPFR评估中广泛采用的像素失真指标与实际隐私保护效果之间的结构性差距。我们证明视觉混淆技术会使身份信息在外部入侵者和不可信服务提供商面前大面积暴露。
小型语言模型正日益被视为一种具有前景且成本效益高的智能体AI实现路径,支持者认为其已具备胜任智能体工作流的能力。然而,尽管小型智能体在简单任务上能接近大型模型的表现,但其性能如何随任务复杂度扩展、何时需启用大型模型、以及如何更有效利用小型智能体处理长周期工作负载等问题仍不明确。本研究通过实证表明,在深度搜索和编程任务中,小型智能体的性能无法随任务复杂度有效扩展,并在此基础上提出受自由职业市场启发的智能体框架——工作负载效率策略竞拍(SALE)。该框架使智能体通过简短策略方案参与竞标,由系统性成本价值机制评分,并借助共享竞拍记忆进行策略优化,从而实现按任务路由的智能调度和持续自我改进,且无需训练独立路由模块或完整运行所有模型。在复杂度各异的深度搜索和编程任务测试中,SALE将最大型智能体的调用需求降低53%,总成本减少35%,并在仅增加可忽略的执行开销前提下,持续超越最大型智能体的pass@1指标。相比之下,依赖任务描述的现有路由方案要么性能不及最大型智能体,要么无法降低成本——往往两者兼有——这凸显其与智能体工作流的适配不足。研究结果表明,虽然小型智能体可能难以独立应对复杂工作负载,但通过协同任务分配和测试时自我改进机制可实现有效"规模扩展"。更广泛而言,这推动我们以系统级视角审视智能体AI:性能提升不应仅依赖于持续扩大的单体模型,而更应源自受市场启发的协同机制——将异构智能体组织成高效、自适应的生态系统。
本研究从二阶几何视角重新审视Transformer的优化问题,建立了架构设计、激活尺度、海森矩阵与最大可容忍学习率之间的直接联系。我们提出了一种名为SimpleNorm的简单归一化策略,通过构造方式稳定中间激活尺度。进而通过分析损失函数对网络激活值的海森矩阵,从理论上证明SimpleNorm能显著降低海森矩阵的谱范数,从而允许采用更大的稳定学习率。我们在10亿、14亿、70亿和80亿参数规模的大型GPT模型上进行了广泛实验,验证了理论发现。实证表明,基于SimpleNorm的网络SimpleGPT可承受比标准惯例高3-10倍的学习率,始终表现出强大的优化稳定性,且性能显著优于成熟基线。具体而言,在70亿参数模型上训练6万步时,SimpleGPT的训练损失比采用QKNorm的LLaMA2低0.08,将损失从2.290降至2.208。相关源代码将在https://github.com/Ocram7/SimpleGPT 发布。
随着大语言模型(LLM)的出现,通用智能体的基础能力取得了突破性进展。然而,对这些智能体进行评估存在独特的挑战,使其有别于静态问答基准测试。我们发现当前智能体基准测试受到诸多外部因素的严重干扰,包括系统提示词、工具集配置和环境动态性。现有评估往往依赖碎片化的研究者自建框架,其中针对推理和工具使用的提示工程差异巨大,导致难以将性能提升归因于模型本身。此外,由于缺乏标准化的环境数据,常出现错误难以追溯、结果无法复现的问题。这种标准化缺失给该领域带来了严重的不公平性和不透明性。我们认为建立统一评估框架对推进智能体评估的严谨性至关重要。为此,我们提出了一项旨在实现智能体评估标准化的方案。
醫學影像分割正從任務特定模型向通用化框架演進。最新研究利用多模態大語言模型(MLLMs)作為自主智能體,採用可驗證獎勵的強化學習(RLVR)來協調如Segment Anything Model(SAM)等專業工具。然而,這些方法通常依賴單輪次、剛性的互動策略,且缺乏訓練過程中的流程級監督,限制了其充分發揮互動工具動態潛力的能力,導致操作冗餘。為解決這一侷限,我們提出MedSAM-Agent框架,將互動式分割重構為多步驟自主決策過程。首先,我們引入混合提示策略生成專家校準的軌跡,使模型能夠內化類人決策啟發式與自適應優化策略。進一步,我們開發了兩階段訓練流程,整合多輪端到端結果驗證與臨床擬真流程獎勵設計,以提升互動簡約性與決策效率。在6種醫學影像模態和21個數據集上的廣泛實驗表明,MedSAM-Agent實現了最優性能,有效統一了自主醫學推理與魯棒的迭代優化。代碼已開源於https://github.com/CUHK-AIM-Group/MedSAM-Agent。
臨床腦機文本介面專為無法提供大量訓練記錄的癱瘓患者設計。預訓練技術通過學習跨受試者的統計先驗來提升數據效率化的泛化能力,但這些先驗高度依賴上下文環境。雖然自然語言的表達可能持續數分鐘,但現有方法大多僅使用數秒上下文進行預訓練。為此,我們提出MEG-XL模型,該模型對每個樣本進行長達2.5分鐘的腦磁圖上下文預訓練,上下文長度達到既往研究的5-300倍,相當於19.1萬個標記,能捕捉更完整的神經上下文信息。在從腦數據解碼詞語的任務中進行微調後,MEG-XL僅需極少數據(如1小時對比50小時)即可達到監督式學習的性能水平,並超越各類腦科學基礎模型。我們發現,採用長上下文預訓練的模型能學習到更適用於詞語解碼的表徵。研究結果表明,長上下文預訓練有助於充分利用其他方法不必要捨棄的延伸神經上下文信息。相關代碼、模型權重及使用指南已開源於https://github.com/neural-processing-lab/MEG-XL。
涉及隐私敏感数据的研究长期受限于数据稀缺问题,这与受益于数据规模化的其他领域形成鲜明对比。随着现代人工智能代理(如OpenClaw和Gemini Agent)被授予持续访问高度敏感个人信息的权限,这一挑战日益紧迫。为突破这一长期瓶颈并应对不断升级的风险,我们推出首个完全从零构建的百万规模全合成数据集Privasis(即"隐私绿洲")——一个包含丰富多样隐私信息的文本资源库,旨在拓宽和加速那些必须处理敏感社会数据的研究领域。相较于现有数据集,包含140万条记录的Privasis在保证质量的前提下实现了数量级的规模突破,并在医疗记录、法律文书、财务档案、日程安排和短信等文档类型上展现出更广泛的多样性,总计包含5510万个标注属性(如族裔、出生日期、工作单位等)。我们利用Privasis通过文本分解与定向脱敏流程构建了并行语料库用于文本清理。基于该数据集训练的紧凑型清理模型(≤40亿参数)在性能上超越了GPT-5和Qwen-3 235B等最先进的大语言模型。我们将公开数据、模型及代码,以推动隐私敏感领域及智能代理的后续研究。
提升大型语言模型(LLMs)的推理能力通常依赖于两种途径:要么依靠模型自身采样出可被强化的正确解法,要么依赖能解决该问题的更强模型。然而,许多难题即使对当前前沿模型而言仍难以攻克,导致无法提取有效的训练信号。一种可行的替代方案是利用高质量的人类专家解法,但单纯模仿这类数据会因根本性的分布偏移而失效——专家解法通常具有教学性,其隐含的推理跳跃是为人类读者而非计算模型设计的。此外,高质量专家解法的获取成本高昂,亟需具备泛化能力的高样本效率训练方法。我们提出分布对齐模仿学习(DAIL),该方法通过两个步骤弥合分布差距:首先将专家解法转化为符合模型分布习惯的详细推理轨迹,再通过对比学习目标聚焦于专家洞察与方法论的学习。实验表明,DAIL仅需不足1000个高质量专家解法即可在Qwen2.5-Instruct和Qwen3模型上实现10-25%的pass@k提升,将推理效率提高2至4倍,并具备跨领域泛化能力。
高質量反饋對於實現有效的人機互動至關重要。這種反饋能夠彌合認知差距、糾正對話偏離軌道,並在互動過程中持續塑造系統行為,同時對模型開發具有長期指導意義。然而儘管其重要性不言而喻,人類對AI的反饋卻往往頻率不足且質量欠佳。這種現實落差促使我們必須對人機互動中的反饋機制進行批判性審視。為理解並突破阻礙用戶提供高質量反饋的挑戰,我們開展了兩項針對人與對話智能體(CAs)反饋動態的研究。通過格萊斯會話準則的理論視角,我們的基礎研究識別出四大反饋障礙——共同基礎、可驗證性、溝通效能與信息密度——這些障礙系統性地制約著用戶的反饋質量。基於這些發現,我們提出三項設計原則,並實證表明:融入符合這些原則的支架式設計的系統,能有效幫助用戶提供更優質的反饋。最後,我們向更廣泛的AI社群發出行動倡議,呼籲通過提升大語言模型的能力來突破反饋障礙。
物体与语言之间的关联是实现人机有意义的交流及实用具身智能的基础。我们推出HieraNav——一个多粒度、开放词汇的目标导航任务,智能体通过解析自然语言指令抵达四个语义层级的目标:场景、房间、区域和实例。为此,我们构建了Language as a Map(LangMap)基准数据集,该大规模数据集基于真实三维室内扫描环境,包含涵盖上述层级的全人工校验标注与任务。LangMap提供区域标签、区分性区域描述、覆盖414种物体类别的区分性实例描述,以及超过1.8万个导航任务。每个目标均配备简洁与详细双版本描述,支持不同指令风格的评估。LangMap以仅四分之一词汇量在区分准确率上超越GOAT-Bench达23.8%,实现更优标注质量。基于LangMap的零样本与监督模型综合评估表明:丰富上下文与记忆能提升导航成功率,但长尾分布目标、微小目标、上下文依赖目标、远距离目标及多目标协同完成仍是挑战。HieraNav与LangMap为推进语言驱动具身导航建立了严谨的测试平台。项目地址:https://bo-miao.github.io/LangMap
理解Transformer组件在大型语言模型中的运作机制至关重要,这构成了人工智能领域近期技术突破的核心。本研究重新审视了前馈网络模块可解释性面临的挑战,提出MemoryLLM框架——该框架旨在将前馈网络与自注意力机制解耦,使我们能够将解耦后的前馈网络作为上下文无关的令牌式神经检索内存进行研究。具体而言,我们探究了输入令牌如何访问前馈网络参数中的记忆单元,并分析了前馈网络记忆在不同下游任务中的重要性。MemoryLLM通过直接基于令牌嵌入独立训练前馈网络(脱离自注意力机制),实现了上下文无关的前馈网络架构。这种方法使前馈网络可预计算为令牌式查找表,支持在显存与存储设备间按需传输,从而显著提升推理效率。我们还提出Flex-MemoryLLM架构,将其定位在传统Transformer设计与MemoryLLM之间的过渡方案。该架构通过上下文无关的令牌嵌入训练前馈网络,有效弥合了由此产生的性能差距。
多模態推薦系統通常整合用戶行為與項目的多模態數據,從而更精準地捕捉用戶偏好。隨著大模型的崛起,多模態推薦日益利用其在語義理解和上下文推理方面的優勢。然而,大模型表徵本質上針對通用語義任務進行優化,而推薦模型則高度依賴稀疏的用戶/項目唯一身份特徵。現有研究忽略了大模型與推薦系統之間的根本表徵差異,導致多模態表徵不相容及推薦性能欠佳。為彌合這一鴻溝,我們提出RecGOAT——一種新穎而簡潔的雙語義對齊框架,用於大語言模型增強的多模態推薦,該框架具備理論保證的對齊能力。RecGOAT首先利用圖注意力網絡,通過建模項目-項目、用戶-項目及用戶-用戶關係,結合用戶/項目的大模型表徵與交互歷史來豐富協同語義。進一步地,我們設計了雙粒度漸進式多模態-身份對齊框架,分別通過跨模態對比學習和最優自適應傳輸實現實例級與分佈級語義對齊。理論上,我們證明該對齊框架衍生的統一表徵具有卓越的語義一致性和完備性。在三個公開基準上的大量實驗表明,RecGOAT實現了最優性能,從實證角度驗證了我們的理論見解。此外,在大規模在線廣告平台上的部署證實了該模型在工業推薦場景中的有效性與可擴展性。代碼已開源於https://github.com/6lyc/RecGOAT-LLM4Rec。
许多机器学习系统虽能获取针对同一预测目标的多源证据,但这些证据源在不同输入中的可靠性和信息量往往存在差异。在生物声学分类中,物种识别既可基于声学信号,也可借助时空背景(如地理位置和季节)进行推断;虽然贝叶斯推断支持采用乘法证据组合策略,但实践中我们通常只能使用判别式预测器而非经过校准的生成模型。本文提出独立条件假设下的融合框架(FINCH),该自适应对数线性证据融合框架将预训练的音频分类器与结构化时空预测器相集成。FINCH通过学习样本级门控函数,从不确定性和信息量统计特征中估计上下文信息的可靠性。由此构建的融合族将纯音频分类器作为特例包含其中,并显式约束上下文证据的影响范围,形成具有可解释纯音频回退机制的风险受控假设类。在多项基准测试中,FINCH始终优于固定权重融合和纯音频基线方法,即使上下文信息单独作用较弱时,仍能提升鲁棒性并改善误差权衡。通过轻量化、可解释的证据驱动方法,我们在CBI数据集上实现了最先进性能,并在BirdSet的多个子集上取得竞争性或更优的结果。代码已开源:\href{https://anonymous.4open.science/r/birdnoise-85CD/README.md}{匿名代码库}
大型语言模型(LLM)的键值对(KV)缓存采用基于前缀的机制,导致其在处理任意顺序检索的上下文时效率低下。虽然已有研究提出位置无关缓存(PIC)技术以实现不受位置约束的KV重用,但现有方法往往导致模型精度显著下降,限制了实际应用。为解决该问题,我们通过为当前主流的纯解码器LLM重新引入编码器,并对其进行显式训练以支持PIC,提出了原生PIC方案。我们进一步开发了COMB——一个与现有推理框架无缝集成的PIC感知缓存系统。实验结果表明,COMB在保持相当精度的前提下,将首令牌生成时间(TTFT)缩短51-94%,吞吐量提升3倍。此外,通过DeepSeek-V2-Lite-Chat模型的质量提升验证了COMB对其他类型纯解码器LLM的适用性。代码已开源:https://github.com/shijuzhao/Comb。