每日精選AI研究論文及翻譯
本報告介紹 UltraShape 1.0——一個可擴展的三維擴散框架,專注於生成高保真度的三維幾何形體。該方法採用兩階段生成流程:首先生成粗略的全局結構,再進行細化以產出細節豐富的高品質幾何體。為實現可靠的三維生成,我們開發了完整的數據處理流程,包含創新的水密性處理方法與高品質數據過濾機制。此流程通過剔除低品質樣本、填充孔洞及加厚薄壁結構,在保留細粒度幾何細節的同時,顯著提升了公開三維數據集的幾何品質。為實現細粒度幾何優化,我們在擴散過程中將空間定位與幾何細節合成解耦:通過在固定空間位置執行體素級精煉,以粗粒度幾何體導出的體素查詢作為透過RoPE編碼的顯式位置錨點,使擴散模型能專注於在縮減的結構化解空間內合成局部幾何細節。我們的模型僅使用公開三維數據集進行訓練,在有限訓練資源下仍實現了卓越的幾何品質。大量評估表明,UltraShape 1.0 在數據處理品質與幾何生成能力上均與現有開源方法具備競爭力。所有程式碼與訓練模型將公開釋出以支援後續研究。
近期,統一化的生成與編輯模型憑藉其卓越性能取得了顯著成功。這些模型主要依賴文本提示進行基於指令的編輯與生成,但語言往往難以準確傳達用戶意圖的編輯區域及細粒度視覺細節。為此,我們提出兩項任務:基於塗鴉的編輯與生成,通過結合用戶文本、圖像和手繪草圖,在圖形用戶界面實現更靈活的創作。我們推出DreamOmni3框架,重點解決兩大挑戰:數據構建與框架設計。我們的數據合成流程包含兩部分:塗鴉編輯與塗鴉生成。針對塗鴉編輯,我們定義了四類任務:基於塗鴉與指令的編輯、基於塗鴉與多模態指令的編輯、圖像融合及隨手畫編輯。基於DreamOmni2數據集,我們提取可編輯區域並疊加手繪方框、圓形、塗鴉或裁剪圖像來構建訓練數據。對於塗鴉生成任務,我們定義了三類任務:基於塗鴉與指令的生成、基於塗鴉與多模態指令的生成及隨手畫生成,其數據構建流程與編輯任務類似。在框架設計上,針對傳統二值掩膜難以處理多塗鴉、多圖像與複雜指令協同編輯的侷限,我們提出聯合輸入方案:將原始圖像與帶塗鴉的源圖像同時輸入模型,並通過不同顏色區分區域以簡化處理。通過對兩幅圖像施加相同的索引與位置編碼,模型能精確定位塗鴉區域並保持編輯準確性。最後,我們為這些任務建立了綜合基準測試以推動後續研究。實驗結果表明DreamOmni3性能優異,模型與代碼將公開釋出。
我們將長上下文語言建模視為持續學習問題而非架構設計問題。在此框架下,我們僅採用標準架構——帶滑動窗口注意力的Transformer模型。然而,我們的模型在測試時會通過對給定上下文進行下一詞預測來持續學習,將讀取的上下文壓縮至其權重中。此外,我們通過訓練時的元學習優化模型在測試時學習的初始化狀態。總體而言,我們的方法作為測試時訓練(TTT)的一種形式,在測試時(通過下一詞預測)和訓練時(通過元學習)均實現端到端(E2E)處理,與先前形式形成對比。我們開展了大量聚焦於擴展特性的實驗。值得注意的是,對於使用1640億詞元訓練的30億參數模型,我們的方法(TTT-E2E)隨上下文長度的擴展方式與全注意力Transformer保持一致,而其他方法(如Mamba 2和Gated DeltaNet)則未呈現此特性。但與RNN類似,TTT-E2E的推理延遲不受上下文長度影響,在處理12.8萬長度上下文時比全注意力機制快2.7倍。我們的代碼已公開釋出。
我們在可驗證獎勵強化學習(RLVR)範式下,系統性地評估了參數高效微調(PEFT)方法。RLVR通過可驗證的反饋激勵語言模型提升推理能力;然而,儘管像LoRA這樣的方法被廣泛使用,適用於RLVR的最佳PEFT架構仍不明確。本研究首次在數學推理基準上,對DeepSeek-R1蒸餾系列模型中的12種以上PEFT方法進行全面評估。實證結果對默認採用標準LoRA的做法提出挑戰,主要發現有三點:首先,我們證明結構變體(如DoRA、AdaLoRA和MiSS)持續優於LoRA;其次,我們發現基於SVD的初始化策略(如PiSSA、MiLoRA)存在譜崩塌現象,其失敗根源於主成分更新與RL優化之間的根本性錯配。此外,消融實驗表明,極端的參數削減(如VeRA、Rank-1)會嚴重制約推理能力。我們進一步通過消融研究與規模化實驗驗證了這些發現。本研究為倡導參數高效RL方法的深入探索提供了權威指南。
問題定位任務旨在根據自然語言問題描述,識別軟體儲存庫中需要修改的位置。這項任務在自動化軟體工程中既基礎又具挑戰性,原因在於問題描述與原始碼實作之間存在語義鴻溝。此鴻溝具體表現為兩種不匹配現象:(1) 表徵至成因的不匹配,即描述未能明確揭示潛在根本原因;(2) 一對多不匹配,即單一問題對應多個相互依存的程式實體。為解決這兩類不匹配,我們提出GraphLocator方法,該方法透過因果結構發現緩解表徵至成因的不匹配,並透過動態問題解耦處理一對多不匹配。其核心產物為因果問題圖(CIG),其中頂點代表已發現的子問題及其關聯的程式實體,邊則編碼其間的因果依賴關係。GraphLocator的工作流程包含兩個階段:表徵頂點定位與動態CIG發現;該方法首先在儲存庫圖上識別表徵位置,隨後透過對相鄰頂點的迭代推理動態擴展CIG。在三組真實世界資料集上的實驗證明了GraphLocator的有效性:(1) 相較基準方法,GraphLocator在函數級別召回率平均提升+19.49%,精確度提升+11.89%;(2) 在表徵至成因與一對多不匹配場景中,GraphLocator分別實現召回率提升+16.44%與+19.18%,精確度提升+7.78%與+13.23%;(3) GraphLocator生成的CIG帶來最高相對改進,使下游問題解決任務效能提升28.74%。
專家混合架構透過僅針對每個輸入啟動稀疏的參數子集,推動了大語言模型的規模化發展,在降低計算成本的同時實現了尖端性能。隨著這類模型在關鍵領域的部署日益增多,理解並強化其對齊機制對於防止有害輸出至關重要。然而現有的大語言模型安全研究幾乎完全聚焦於稠密架構,致使專家混合模型獨特的安全特性長期未被系統性探究。專家混合模型的模組化稀疏激活設計表明,其安全機制的運作方式可能與稠密模型存在差異,這引發了關於其魯棒性的新課題。 本文提出首個免訓練、輕量級且架構無關的攻擊框架GateBreaker,該框架能在推理階段破壞現代專家混合大語言模型的安全對齊機制。GateBreaker的攻擊流程包含三階段:(i) 閘門層級剖析:識別在有害輸入上被過度路由的安全專家;(ii) 專家層級定位:在安全專家內部定位安全結構;(iii) 定向安全移除:通過禁用已識別的安全結構來破壞安全對齊。研究發現,專家混合模型的安全機制集中於由稀疏路由協調的少量神經元子集。選擇性禁用目標專家層中約3%的神經元後,對八款最新對齊的專家混合大語言模型的平均攻擊成功率從7.4%顯著提升至64.9%,且實用性下降有限。這些安全神經元在相同模型家族內具備可遷移性,單次遷移攻擊即可將攻擊成功率從17.9%提升至67.7%。此外,GateBreaker可泛化至五款專家混合視覺語言模型,對不安全圖像輸入的攻擊成功率達60.9%。