每日精選AI研究論文及翻譯
近期,大型語言模型(LLMs)與多代理系統的進展,在深度研究、氛圍編碼及數學推理等複雜問題解決任務中展現了顯著能力。然而,現存的多代理系統大多基於手動提示/工作流工程,並依賴於複雜的代理框架,這使得它們在計算上效率低下、能力有限,且無法從數據中心的學習中受益。本研究中,我們引入了代理鏈(Chain-of-Agents, CoA),這是一種新穎的LLM推理範式,它能夠在單一模型內實現原生端到端的複雜問題解決,其方式與多代理系統(即,利用多種工具與多個代理進行多輪問題解決)相同。在代理鏈問題解決過程中,模型動態激活不同的工具代理與角色扮演代理,以模擬多代理協作,實現端到端的處理。為了激發LLMs中端到端代理鏈問題解決的能力,我們提出了一種多代理蒸餾框架,將頂尖的多代理系統蒸餾成代理鏈軌跡,用於代理監督微調。隨後,我們在可驗證的代理任務上採用代理強化學習,進一步提升模型在代理鏈問題解決上的能力。我們將由此產生的模型稱為代理基礎模型(Agent Foundation Models, AFMs)。我們的實證研究表明,AFM在網絡代理與代碼代理設置的多樣化基準測試中均建立了新的最優性能。我們將整個研究,包括模型權重、訓練與評估代碼以及訓練數據,完全開源,為未來代理模型與代理強化學習的研究提供了堅實的起點。
LongSplat針對從非專業拍攝的長視頻中進行新視角合成(NVS)所面臨的關鍵挑戰,這些視頻通常具有不規則的相機運動、未知的相機姿態以及廣闊的場景。現有方法常受困於姿態漂移、幾何初始化不準確以及嚴重的記憶體限制。為解決這些問題,我們提出了LongSplat,這是一個強大的無姿態3D高斯潑濺框架,其特點包括:(1) 增量聯合優化,同步優化相機姿態與3D高斯分佈,避免局部最優並確保全域一致性;(2) 基於學習的3D先驗知識的穩健姿態估計模組;以及(3) 高效的八叉樹錨點生成機制,根據空間密度將密集點雲轉化為錨點。在具有挑戰性的基準測試上的廣泛實驗表明,LongSplat達到了業界領先的成果,在渲染質量、姿態準確性和計算效率方面相比先前方法有顯著提升。項目頁面:https://linjohnss.github.io/longsplat/
大型語言模型(LLMs)需要精細的提示設計,然而當前的實踐在結構、數據整合、格式敏感性以及工具支持方面面臨挑戰。現有方法缺乏全面解決方案來組織涉及多樣數據類型(文檔、表格、圖像)的複雜提示,或系統地管理呈現變體。為填補這些空白,我們引入了POML(提示編排標記語言)。POML採用基於組件的標記來實現邏輯結構(角色、任務、示例),使用專用標籤實現無縫數據整合,並採用類似CSS的樣式系統來分離內容與呈現,從而降低格式敏感性。它包含用於動態提示的模板化功能,以及一套全面的開發者工具包(IDE支持、SDKs),以提升版本控制與協作效率。我們通過兩個案例研究驗證了POML,展示了其在複雜應用集成(PomLink)和準確性表現(TableQA)方面的影響,並進行了一項用戶研究,評估其在實際開發場景中的有效性。
視覺設計師自然會從多個視覺參考中汲取靈感,結合多樣化的元素和美學原則來創作藝術作品。然而,當前的圖像生成框架主要依賴於單一來源的輸入——無論是文本提示還是單個參考圖像。本文聚焦於利用多個視覺參考進行可控圖像生成的任務。我們引入了MultiRef-bench,這是一個嚴謹的評估框架,包含990個合成樣本和1,000個真實世界樣本,這些樣本要求整合來自多個參考圖像的視覺內容。合成樣本通過我們的數據引擎RefBlend生成,涵蓋10種參考類型和33種參考組合。基於RefBlend,我們進一步構建了一個包含38k高質量圖像的數據集MultiRef,以促進進一步的研究。我們在三個交織的圖像-文本模型(即OmniGen、ACE和Show-o)和六個代理框架(如ChatDiT和LLM + SD)上的實驗表明,即使是最先進的系統在多參考條件下也面臨挑戰,最佳模型OmniGen在合成樣本中僅達到66.6%,在真實世界案例中平均達到79.0%,與黃金答案相比。這些發現為開發更靈活、更接近人類創造力的工具提供了寶貴的方向,這些工具能夠有效整合多個視覺靈感來源。數據集公開於:https://multiref.github.io/。
在具身人工智慧中,泛化能力受到「視覺到行動差距」的阻礙,這一差距源於數據稀缺性和具身異質性。為解決這一問題,我們率先提出「指向」作為一種統一且與具身無關的中間表示,定義了四種核心的具身指向能力,這些能力將高層次的視覺語言理解與低層次的行動原語相連接。我們引入了Embodied-R1,這是一個專門為具身推理和指向設計的30億參數視覺語言模型(VLM)。我們利用多種具身和通用視覺推理數據集作為來源,構建了一個大規模數據集Embodied-Points-200K,該數據集支持關鍵的具身指向能力。隨後,我們採用兩階段強化微調(RFT)課程,結合專門設計的多任務獎勵機制,對Embodied-R1進行訓練。Embodied-R1在11個具身空間和指向基準測試中達到了最先進的性能。重要的是,它展示了強大的零樣本泛化能力,在SIMPLEREnv中取得了56.2%的成功率,並在8個真實世界的XArm任務中達到了87.5%的成功率,且無需任何任務特定的微調,這比強基線模型提升了62%。此外,該模型對多種視覺干擾表現出高度的魯棒性。我們的工作表明,以指向為中心的表示,結合RFT訓練範式,為縮小機器人中的感知-行動差距提供了一條有效且可泛化的途徑。
具備先進推理與工具使用能力的AI代理在深度網路搜尋中展現了令人印象深刻的表現。儘管現有的基準測試如BrowseComp評估了這些瀏覽能力,但它們主要聚焦於文本資訊,忽略了多模態內容的普遍性。為彌補這一差距,我們引入了MM-BrowseComp,這是一個包含224個精心設計的挑戰性問題的新基準,專門用於評估代理的多模態檢索與推理能力。這些問題常在提示中融入圖像,且搜尋與推理過程中遇到的關鍵資訊也可能嵌入網頁中的圖像或影片。因此,僅依賴文本的方法在我們的基準測試中顯得不足。此外,我們為每個問題提供了經過驗證的檢查清單,使得多模態依賴性與推理路徑的細緻分析成為可能。我們對MM-BrowseComp上最先進模型的全面評估顯示,即使是像OpenAI o3這樣配備工具的頂尖模型,其準確率也僅達到29.02%,凸顯了當前模型在多模態能力上的不足以及缺乏原生多模態推理的現狀。
虛擬試穿(VTON)是一項實用且廣泛應用的任務,現有研究大多聚焦於服裝。本文提出OmniTry,這是一個統一框架,將VTON的應用範圍從服裝擴展至任何可穿戴物品,如珠寶和配飾,並採用無遮罩設置以實現更實際的應用。在擴展到多種類型的物品時,數據整理對於獲取配對圖像(即物品圖像及其對應的試穿效果)具有挑戰性。為解決這一問題,我們提出了一個兩階段流程:在第一階段,我們利用大規模非配對圖像(即包含任何可穿戴物品的人物肖像)來訓練模型,實現無遮罩定位。具體而言,我們重新利用修復模型,在給定空白遮罩的情況下自動在合適位置繪製物品。在第二階段,模型通過配對圖像進一步微調,以轉移物品外觀的一致性。我們觀察到,第一階段後的模型即使在少量配對樣本下也能快速收斂。OmniTry在一個包含12種常見可穿戴物品類別的綜合基準上進行了評估,涵蓋店內和野外圖像。實驗結果表明,與現有方法相比,OmniTry在物品定位和身份保持方面表現更佳。OmniTry的代碼、模型權重和評估基準將在https://omnitry.github.io/上公開提供。
基於文本引導的圖像與視頻色彩編輯是一項基礎但尚未解決的問題,它需要對色彩屬性進行細粒度操控,包括反照率、光源色彩和環境光照,同時保持幾何形狀、材質屬性以及光與物質交互的物理一致性。現有的免訓練方法在各種編輯任務中具有廣泛的適用性,但在精確色彩控制方面存在困難,且常常在編輯與非編輯區域引入視覺不一致性。在本研究中,我們提出了ColorCtrl,這是一種利用現代多模態擴散變換器(MM-DiT)注意力機制的免訓練色彩編輯方法。通過針對性地操控注意力圖和值標記來解構結構與色彩,我們的方法實現了精確且一致的色彩編輯,並提供了屬性強度的詞級控制。我們的方法僅修改提示指定的目標區域,保持無關區域不受影響。在SD3和FLUX.1-dev上的大量實驗表明,ColorCtrl在編輯質量和一致性方面均超越了現有的免訓練方法,達到了業界領先水平。此外,在一致性方面,我們的方法超越了FLUX.1 Kontext Max和GPT-4o圖像生成等強勁商業模型。當擴展至如CogVideoX等視頻模型時,我們的方法展現出更大優勢,尤其是在保持時間連貫性和編輯穩定性方面。最後,我們的方法也適用於基於指令的編輯擴散模型,如Step1X-Edit和FLUX.1 Kontext dev,進一步證明了其多功能性。
評估個性化推薦仍然是一個核心挑戰,尤其是在播客等長音頻領域,傳統的離線指標存在曝光偏差,而線上方法如A/B測試則成本高昂且操作受限。本文提出了一種新穎的框架,利用大型語言模型(LLMs)作為離線評判者,以可擴展且可解釋的方式評估播客推薦的質量。我們的兩階段基於用戶畫像的方法首先從90天的收聽歷史中提煉出自然語言用戶畫像。這些畫像總結了主題興趣和行為模式,作為用戶偏好的簡潔、可解釋的表徵。我們不使用原始數據來提示LLM,而是利用這些畫像提供高層次、語義豐富的上下文,使LLM能夠更有效地推理用戶興趣與推薦劇集之間的匹配度。這降低了輸入的複雜性並提高了可解釋性。然後,我們提示LLM根據畫像與劇集的匹配度提供細粒度的點對點和成對判斷。在一項包含47名參與者的對照研究中,我們的基於畫像的評判者與人類判斷高度一致,並且優於或匹配了使用原始收聽歷史的變體。該框架為推薦系統中的迭代測試和模型選擇提供了高效、基於畫像的評估方法。
本研究探討了使用大型語言模型(LLMs)從現實世界場景的自然語言描述中預測人類感知的痛苦分數。該任務被框架化為一個回歸問題,模型為每個輸入語句分配一個0到100的標量值。我們評估了多種提示策略,包括零樣本、固定上下文少樣本以及使用BERT句子嵌入的基於檢索的提示。少樣本方法始終優於零樣本基線,凸顯了情境示例在情感預測中的價值。為了超越靜態評估,我們引入了“痛苦遊戲秀”,這是一個受電視節目啟發的新穎遊戲化框架。它通過涉及序數比較、二元分類、標量估計和反饋驅動推理的結構化回合來測試LLMs。這種設置使我們不僅能夠評估預測準確性,還能評估模型基於糾正反饋的適應能力。遊戲化評估突顯了LLMs在動態情感推理任務中超越標準回歸的廣泛潛力。代碼和數據鏈接:https://github.com/abhi1nandy2/Misery_Data_Exps_GitHub
儘管大型語言模型(LLMs)在多樣化的任務中展現了卓越的性能,但其本質上缺乏自我意識,並經常表現出過度自信,對錯誤的預測賦予高置信度分數。因此,準確的置信度估計對於提升LLM生成輸出的可信度與可靠性至關重要。然而,現有方法受限於粗粒度的評分機制,無法在生成過程中提供細粒度、連續的置信度估計。為解決這些限制,我們提出了FineCE,一種新穎的置信度估計方法,能在文本生成過程中提供精確、細粒度的置信度分數。具體而言,我們首先開發了一個全面的訓練數據構建流程,有效捕捉LLM回應的潛在概率分佈,然後以監督方式訓練模型來預測任意文本序列的置信度分數。此外,我們提出了一種反向置信度集成(BCI)策略,利用後續文本的信息來增強推理過程中當前序列的置信度估計。我們還引入了三種策略,用於在生成過程中識別進行置信度估計的最佳位置。在多個基準數據集上的廣泛實驗表明,FineCE在一致性上超越了現有的經典置信度估計方法。我們的代碼及論文中使用的所有基線模型均已開源於GitHub。
語音分離領域,針對「雞尾酒會問題」,已因深度神經網絡(DNN)的應用而迎來革命性進展。語音分離提升了複雜聲學環境下的清晰度,並作為語音識別和說話人識別的重要預處理步驟。然而,當前文獻多聚焦於特定架構或孤立方法,導致理解碎片化。本綜述旨在彌補這一缺口,系統性地審視基於DNN的語音分離技術。我們的工作通過以下幾點與眾不同:(一)全面視角:我們系統探討了學習範式、已知/未知說話者的分離場景、監督/自監督/無監督框架的對比分析,以及從編碼器到估計策略的架構組件。(二)時效性:涵蓋前沿發展,確保讀者能接觸到最新的創新與基準測試。(三)獨到見解:超越總結,我們評估技術發展軌跡,識別新興模式,並強調包括領域魯棒框架、高效架構、多模態整合及新穎自監督範式在內的潛力方向。(四)公正評估:我們在標準數據集上進行定量評估,揭示不同方法的真實能力與局限。這份全面綜述為經驗豐富的研究者及初入此複雜領域的新手提供了易於理解的參考指南。
自我精進技術的最新進展顯示出通過迭代精煉來提升大型語言模型(LLMs)輸出質量的巨大潛力。然而,現有的自我精進方法大多依賴於固定迭代次數的被動過程,這使得基於生成上下文動態變化來確定最佳精煉時機和內容變得困難。受人類在執行過程中動態精煉思維方式的啟發,我們提出了主動自我精進(ProActive Self-Refinement, PASR),這是一種新穎的方法,使LLMs能夠在生成過程中精煉其輸出。與重新生成整個回應的方法不同,PASR根據模型的內部狀態和演進上下文主動決定是否、何時以及如何進行精煉。我們在10個多樣化的任務上進行了廣泛的實驗,以評估PASR的有效性。實驗結果表明,PASR顯著提升了問題解決性能。特別是在Qwen3-8B模型上,PASR相比標準生成平均減少了41.6%的token消耗,同時準確率提高了8.2%。我們的代碼及論文中使用的所有基準測試均可在GitHub上獲取。
近期,用於文本到圖像生成的流匹配模型已取得顯著質量,然而它們與強化學習的整合以實現人類偏好對齊仍不盡理想,阻礙了基於細粒度獎勵的優化。我們觀察到,流模型在有效GRPO訓練中的關鍵障礙在於現有方法中的時間均勻性假設:稀疏的終端獎勵與均勻的信用分配未能捕捉到生成時間步中決策的變化重要性,導致探索效率低下和收斂次優。為彌補這一不足,我們引入了TempFlow-GRPO(時間流GRPO),這是一個原則性的GRPO框架,能夠捕捉並利用基於流生成中固有的時間結構。TempFlow-GRPO引入了兩項關鍵創新:(i) 一種軌跡分支機制,通過在指定分支點集中隨機性來提供過程獎勵,無需專門的中間獎勵模型即可實現精確的信用分配;(ii) 一種噪聲感知的加權方案,根據每個時間步的內在探索潛力調節策略優化,優先在高影響的早期階段進行學習,同時確保後期階段的穩定改進。這些創新賦予了模型時間感知的優化能力,尊重了底層生成動力學,從而在人類偏好對齊和標準文本到圖像基準測試中實現了最先進的性能。
音頻理解——包括語音、非語音聲音和音樂——是實現人類水平智能的關鍵。因此,AI代理必須展現出全面的音頻理解能力,才能被視為具備通用智能。然而,全面評估聽覺智能仍然具有挑戰性。為填補這一空白,我們推出了MMAU-Pro,這是最全面且經過嚴格策劃的基準測試,用於評估AI系統的音頻智能。MMAU-Pro包含5,305個實例,每個實例都配有一個或多個音頻,並與人類專家生成的問答對配對,涵蓋語音、聲音、音樂及其組合。與現有基準不同,MMAU-Pro在49種獨特技能和多個複雜維度上評估聽覺智能,包括長篇音頻理解、空間音頻推理、多音頻理解等。所有問題都經過精心設計,要求進行深思熟慮的多跳推理,包括多選題和開放式回答格式。重要的是,音頻數據直接來自“野外”,而非已知分佈的現有數據集。我們評估了22個領先的開源和專有多模態AI模型,揭示了顯著的局限性:即使是Gemini 2.5 Flash和Audio Flamingo 3等最先進的模型,其準確率也僅分別為59.2%和51.7%,在多個類別中接近隨機表現。我們廣泛的分析突出了具體的不足,並提供了新穎的見解,為社區提供了可操作的前景,以增強未來AI系統在音頻通用智能方面的進展。基準測試和代碼可在https://sonalkum.github.io/mmau-pro獲取。
多智能體強化學習(MARL)是解決合作與競爭決策問題的強大範式。儘管已提出許多MARL基準測試,但鮮有結合連續狀態與動作空間並具備挑戰性協調與規劃任務的基準。我們引入了CAMAR,這是一個專為連續動作環境中的多智能體路徑規劃設計的新MARL基準。CAMAR支持智能體之間的合作與競爭互動,並能以每秒高達100,000個環境步驟的效率運行。我們還提出了一個三層評估協議,以更好地追蹤算法進展並實現更深入的性能分析。此外,CAMAR允許將經典規劃方法如RRT和RRT*整合到MARL流程中。我們將它們作為獨立基線,並將RRT*與流行的MARL算法結合,創建混合方法。我們提供了一套測試場景和基準測試工具,以確保可重現性和公平比較。實驗表明,CAMAR為MARL社群提供了一個具有挑戰性且真實的測試平台。
大型語言模型(LLMs)展現出卓越的問題解決能力,但在處理複雜任務時因內部知識的靜態性而面臨挑戰。檢索增強生成(RAG)雖提升了對外部資訊的獲取能力,但在多跳推理和策略性搜索方面仍受限於僵化的工作流程。近期,基於代理的深度研究進展賦予了LLMs自主推理、搜索和綜合資訊的能力。然而,當前依賴於基於結果的強化學習(RL)的方法面臨著梯度衝突和獎勵稀疏性等關鍵問題,限制了性能提升和訓練效率。為解決這些問題,我們首先提出了原子思維(Atomic Thought),這是一種新穎的LLM思維範式,將推理分解為細粒度的功能單元。這些單元由推理獎勵模型(RRMs)監督,並提供原子思維獎勵(ATR)以進行細粒度指導。基於此,我們提出了Atom-Searcher,這是一個整合了原子思維和ATR的新穎RL框架,用於代理深度研究。Atom-Searcher採用課程啟發的獎勵調度,早期優先考慮過程級別的ATR,並逐步過渡到結果獎勵,從而加速有效推理路徑的收斂。在七個基準測試上的實驗顯示,相較於現有技術,Atom-Searcher均取得了持續的改進。其主要優勢包括:(1)Atom-Searcher在測試時可擴展計算資源。(2)原子思維為RRMs提供了監督錨點,橋接了深度研究任務與RRMs。(3)Atom-Searcher展現出更具可解釋性、更接近人類的推理模式。
大型語言模型的版權保護至關重要,這不僅因為其高昂的開發成本和專有價值,更在於其潛在的濫用風險。現有的研究主要集中於追蹤LLM生成內容的技術——即文本水印技術——而對於保護模型本身的方法(如模型水印和模型指紋)的系統性探討仍顯不足。此外,文本水印、模型水印與模型指紋之間的關係與區別尚未得到全面闡明。本文對當前LLM版權保護技術的現狀進行了全面調查,重點關注模型指紋技術,涵蓋以下方面:(1) 闡明從文本水印到模型水印及指紋的概念聯繫,並採用統一術語,將模型水印納入更廣泛的指紋框架;(2) 概述並比較多種文本水印技術,強調這些方法在某些情況下可作為模型指紋使用;(3) 系統分類並比較現有的LLM版權保護模型指紋方法;(4) 首次提出指紋轉移與指紋移除技術;(5) 總結模型指紋的評估指標,包括有效性、無害性、魯棒性、隱蔽性和可靠性;(6) 探討開放性挑戰與未來研究方向。本調查旨在為研究人員提供對LLM時代文本水印與模型指紋技術的深入理解,從而促進在保護其知識產權方面的進一步發展。
本技術報告詳述了一種新穎的方法,將推理與檢索增強生成(RAG)結合於單一精簡的語言模型架構中。現有的RAG系統通常依賴於大規模模型和外部API,而我們的工作則針對在資源受限或安全環境中部署高效能且保護隱私的解決方案日益增長的需求。基於測試時縮放和小規模推理模型的最新發展,我們開發了一種檢索增強型對話代理,能夠使用輕量級骨幹模型解釋複雜的領域特定查詢。我們的系統整合了密集檢索器與微調的Qwen2.5-Instruct模型,利用合成查詢生成和從前沿模型(如DeepSeek-R1)推導出的推理軌跡,在一個精選的語料庫(本例為NHS A-to-Z條件頁面)上進行訓練。我們探討了基於摘要的文件壓縮、合成數據設計和推理感知微調對模型性能的影響。與非推理和通用精簡模型的評估結果顯示,我們的領域特定微調方法在答案準確性和一致性方面取得了顯著提升,接近前沿水平的性能,同時仍適合本地部署。所有實現細節和代碼均已公開,以支持跨領域的可重現性和適應性。
現有的視頻推薦系統主要依賴於用戶定義的元數據或由專用編碼器提取的低層次視覺和音頻信號。這些低層次特徵描述了屏幕上的內容,但忽略了更深層的語義,如意圖、幽默和世界知識,這些元素使視頻片段與觀眾產生共鳴。例如,一段30秒的片段僅僅是屋頂上的歌手,還是在土耳其卡帕多西亞的仙女煙囪間拍攝的諷刺模仿?這樣的區別對於個性化推薦至關重要,卻在傳統的編碼流程中無法被捕捉。本文提出了一種簡單的、與推薦系統無關的零微調框架,通過提示現成的多模態大語言模型(MLLM)將每個片段總結為豐富的自然語言描述(例如“一部包含滑稽打鬥和管弦樂刺擊的超級英雄模仿劇”),從而彌合原始內容與用戶意圖之間的差距。我們將MLLM的輸出與最先進的文本編碼器結合,並將其輸入到標準的協同過濾、基於內容和生成式推薦系統中。在模擬用戶與TikTok風格視頻互動的MicroLens-100K數據集上,我們的框架在五種代表性模型中始終超越傳統的視頻、音頻和元數據特徵。我們的研究結果凸顯了利用MLLM作為即時知識提取器來構建更具意圖感知能力的視頻推薦系統的潛力。
本研究探討了在骨骼拓撲結構顯著不同的角色之間進行動畫轉移的挑戰。儘管數十年來許多技術已推動了動畫重定向的進步,但在多樣化拓撲結構之間轉移動作仍屬較少探索的領域。主要障礙在於源骨骼與目標骨骼之間固有的拓撲不一致性,這限制了直接建立一對一骨骼對應關係的可能性。此外,目前缺乏跨越不同拓撲結構的大規模配對動作數據集,嚴重制約了數據驅動方法的發展。為解決這些限制,我們提出了Motion2Motion,一種新穎的、無需訓練的框架。Motion2Motion簡潔而高效,僅需目標骨骼上的一個或少數幾個示例動作,通過訪問源骨骼與目標骨骼之間的一組稀疏骨骼對應關係即可工作。通過全面的質性和量化評估,我們證明Motion2Motion在相似骨骼和跨物種骨骼轉移場景中均能實現高效可靠的性能。我們的方法在實際應用中的實用性進一步體現在其成功整合於下游應用和用戶界面中,凸顯了其在工業應用中的潛力。代碼和數據可在https://lhchen.top/Motion2Motion獲取。
由大型語言模型(LLMs)驅動的生成模型正逐漸成為推薦與搜索任務的統一解決方案。這些模型中的一個關鍵設計選擇是如何表示項目,傳統上通過唯一識別符(IDs),而最近則使用由嵌入獲得的離散代碼組成的語義ID。雖然針對特定任務的嵌入模型可以提升單一任務的性能,但它們在聯合設置中可能無法很好地泛化。本文探討了在使用統一模型時,如何構建在搜索和推薦中均表現良好的語義ID。我們比較了多種構建語義ID的策略,包括針對特定任務和跨任務的方法,以及在聯合搜索與推薦生成模型中,每個任務是否應擁有自己的語義ID標記。我們的結果表明,使用在搜索和推薦任務上均進行微調的雙編碼器模型來獲取項目嵌入,隨後構建統一的語義ID空間,能夠提供有效的折衷方案,使兩項任務均表現出色。我們希望這些發現能激發後續關於可泛化、語義基礎的ID方案的研究,並為下一波統一的生成推薦架構提供啟示。
大型語言模型如何理解道德維度,與人類相比有何異同?這項首次大規模貝葉斯評估市場領先語言模型的研究給出了答案。與先前使用確定性基準(多數或包含規則)的研究不同,我們通過建模註釋者分歧來捕捉偶然不確定性(人類固有的分歧)和認知不確定性(模型領域敏感性)。我們評估了頂尖語言模型(Claude Sonnet 4、DeepSeek-V3、Llama 4 Maverick)在來自約700名註釋者的25萬+條註釋上的表現,這些註釋涵蓋了社交媒體、新聞和論壇的10萬+條文本。 我們的GPU優化貝葉斯框架處理了100萬+次模型查詢,結果顯示AI模型通常排名在人類註釋者的前25%,達到了遠高於平均水平的平衡準確率。重要的是,我們發現AI產生的假陰性遠少於人類,這凸顯了其更為敏銳的道德檢測能力。
稀疏自編碼器(Sparse Autoencoders, SAEs)能夠無監督地從大型語言模型(LLMs)中提取可解釋的特徵。然而,其在下游引導任務中的有效性受到對比數據集或大量激活存儲需求的限制。為解決這些限制,我們提出了CorrSteer,該方法通過將樣本正確性與推理時生成令牌的SAE激活相關聯來選擇特徵。此方法僅使用推理時的激活來提取更相關的特徵,從而避免虛假相關性。它還從平均激活中獲取引導係數,實現了整個流程的自動化。我們的方法在Gemma 2 2B和LLaMA 3.1 8B上的問答、偏見緩解、越獄防護及推理基準測試中展現了改進的任務性能,特別是在僅使用4000個樣本的情況下,MMLU性能提升了+4.1%,HarmBench提升了+22.9%。所選特徵顯示出與每項任務需求相符的語義模式,揭示了驅動性能的底層能力。我們的工作確立了基於相關性的選擇作為一種有效且可擴展的方法,用於跨語言模型應用的自動化SAE引導。
通用醫學影像分割模型因其在多樣化任務中的強大泛化能力而嶄露頭角,展現出廣泛臨床應用的巨大潛力。這一潛力部分得益於通用視覺模型(如Segment Anything Model, SAM)的成功,其激發了多種針對醫學分割任務的微調變體的開發。然而,像MedSAM這樣的微調變體在相對有限的醫學影像數據上進行訓練,這些數據往往存在異質性、註釋稀缺以及分佈偏移等問題。這些挑戰限制了它們在廣泛醫學分割任務中的泛化能力。有鑑於此,我們提出了MedSAMix,這是一種無需訓練的模型融合方法,它整合了通用模型(如SAM)和專用模型(如MedSAM)的優勢,用於醫學影像分割。與依賴手動配置且往往導致次優結果的傳統模型融合方法不同,我們提出了一種零階優化方法,以自動發現層級最優的融合方案。此外,針對臨床應用,我們開發了兩種策略,分別通過單任務優化和多目標優化來滿足不同場景下對領域特定性和泛化性的需求。在25個醫學分割任務上的廣泛評估表明,MedSAMix有效減輕了模型偏差,並在領域特定準確性和泛化能力上持續提升性能,在專用任務上實現了6.67%的提升,在多任務評估中提升了4.37%。
輻射場(Radiance Fields, RF)的發展,例如3D高斯潑濺(3D Gaussian Splatting, 3DGS)和神經輻射場(Neural Radiance Fields, NeRF),已經徹底改變了互動式照片級真實感視圖合成,並為擴展現實(XR)研究與應用帶來了巨大的機遇。然而,儘管RF研究呈指數級增長,其對XR社群的貢獻仍然稀少。為更好地理解這一研究缺口,我們對當前RF文獻進行了系統性調查,旨在分析:(i) RF如何被設想用於XR應用,(ii) 它們已經如何被實現,以及(iii) 尚存的研究缺口。我們從計算機視覺、計算機圖形學、機器人學、多媒體、人機交互及XR社群中收集了365篇與XR相關的RF貢獻,試圖回答上述研究問題。在這365篇論文中,我們對其中66篇已詳細探討RF在XR中具體應用的論文進行了分析。通過此次調查,我們在更廣泛的RF研究領域中延伸並定位了XR專屬的RF研究主題,並為XR社群在RF研究的快速發展中提供了一份有助於導航的資源。
我們致力於解決在分佈偏移情況下檢測合成語音的挑戰——這些偏移源於訓練數據中未見過的合成方法、說話者、語言或音頻條件。少樣本學習方法通過基於少量同分佈樣本快速適應,是應對分佈偏移的一種有前景的途徑。我們提出了一種自注意力原型網絡,以實現更為穩健的少樣本適應。為評估我們的方法,我們系統地比較了傳統零樣本檢測器與所提出的少樣本檢測器的性能,並精心控制訓練條件以在評估時引入分佈偏移。在分佈偏移影響零樣本性能的條件下,我們提出的少樣本適應技術能夠利用少至10個同分佈樣本快速適應——在日語深度偽造數據上實現了高達32%的相對等錯誤率(EER)降低,在ASVspoof 2021深度偽造數據集上實現了20%的相對降低。
运动传感器时间序列在人类活动识别(HAR)中占据核心地位,其应用涵盖健康、体育及智能设备等多个领域。然而,现有方法通常针对固定的活动集进行训练,当出现新行为或传感器配置时,需耗费大量资源重新训练。近期尝试利用大型语言模型(LLMs)进行HAR,通常通过将信号转换为文本或图像,但存在准确率有限且缺乏可验证解释性的问题。我们提出了ZARA,这是首个基于代理的框架,能够直接从原始运动时间序列实现零样本、可解释的HAR。ZARA集成了一个自动生成的成对特征知识库,该知识库捕捉了每对活动的区分性统计信息;一个多传感器检索模块,用于提取相关证据;以及一个分层代理管道,引导LLM迭代选择特征、参考这些证据,并生成活动预测和自然语言解释。ZARA无需任何微调或特定任务分类器,即可实现灵活且可解释的HAR。在8个HAR基准上的广泛实验表明,ZARA实现了最先进的零样本性能,在提供清晰推理的同时,其宏F1分数超出最强基线2.53倍。消融研究进一步证实了每个模块的必要性,标志着ZARA朝着可信赖、即插即用的运动时间序列分析迈出了有希望的一步。我们的代码可在https://github.com/zechenli03/ZARA获取。