每日精選AI研究論文及翻譯
測試時間擴展是一種有前途的語言建模新方法,利用額外的測試時間計算來提高性能。最近,OpenAI的o1模型展示了這種能力,但並未公開分享其方法論,導致許多複製努力。我們尋求實現測試時間擴展和強大推理性能的最簡單方法。首先,我們匯集了一個包含1,000個問題和推理軌跡的小數據集s1K,依賴我們通過消融驗證的三個標準:難度、多樣性和質量。其次,我們開發了預算強制方法來控制測試時間計算,通過強制終止模型的思考過程或在模型嘗試結束時多次附加“等待”來延長思考時間。這可以促使模型重新檢查答案,通常修正不正確的推理步驟。在對Qwen2.5-32B-Instruct語言模型在s1K上進行監督微調並配備預算強制後,我們的模型s1在競賽數學問題中超過了o1-preview最多27%(MATH和AIME24)。此外,通過預算強制對s1進行擴展,可以在無需測試時間干預的情況下超越其性能:從AIME24的50%提高到57%。我們的模型、數據和代碼在https://github.com/simplescaling/s1上開源。
我們介紹了獎勵導向的推測解碼(RSD),這是一個旨在提高大型語言模型(LLMs)推理效率的新框架。RSD結合了一個輕量級的草稿模型和一個更強大的目標模型,通過控制偏差來優先考慮高獎勵輸出,與現有的推測解碼方法形成對比,後者強調嚴格的無偏見。RSD採用一個過程獎勵模型來評估中間解碼步驟,動態決定是否調用目標模型,從而優化計算成本和輸出質量之間的折衷。我們在理論上證明了一個基於閾值的混合策略實現了資源利用和性能之間的最佳平衡。對具有挑戰性的推理基準測試進行了廣泛評估,包括奧林匹克級任務,結果顯示RSD相對於僅使用目標模型進行解碼(FLOP減少高達4.4倍)取得了顯著的效率提升,同時平均精度顯著優於並行解碼方法(高達+3.5)。這些結果突出了RSD作為在資源密集型場景中部署LLMs的堅固且具成本效益的方法。
在 AI 領域,僅依賴輸入幀的無輔助人類視頻抠像方法常常難以應對複雜或模糊的背景。為了應對這一問題,我們提出了MatAnyone,這是一個針對目標指定視頻抠像而設的強大框架。具體來說,我們基於基於記憶的範式,引入了一個一致的記憶傳播模塊,通過區域自適應記憶融合,自適應地整合來自上一幀的記憶。這確保了核心區域的語義穩定性,同時保留了對象邊界上的細節。為了進行強大的訓練,我們提出了一個更大、高質量且多樣化的視頻抠像數據集。此外,我們還融入了一種新穎的訓練策略,有效地利用大規模分割數據,提升了抠像的穩定性。通過這種新的網絡設計、數據集和訓練策略,MatAnyone在各種現實場景中提供了強大且準確的視頻抠像結果,勝過現有方法。
由於知識圖譜(KG)結構與自然語言之間存在天然差異,如何有效整合KG的整體結構信息與大型語言模型(LLMs)已成為一個重要問題。為此,我們提出了一個兩階段框架,用於學習並應用每個實體的量化編碼,旨在實現KG與LLMs的無縫整合。首先,提出了一種自監督量化表示(SSQR)方法,將KG的結構和語義知識壓縮為離散編碼(即,標記),以對齊語言句子的格式。我們進一步設計了KG指令跟隨數據,將這些學習到的編碼視為特徵直接輸入LLMs,從而實現無縫整合。實驗結果表明,SSQR優於現有的非監督量化方法,產生更具區分性的編碼。此外,經過微調的LLaMA2和LLaMA3.1在KG鏈接預測和三元分類任務上也表現優異,僅使用每個實體16個標記,而不是傳統提示方法中的數千個。
Softmax 函數輸出的向量中,最大元素隨著輸入向量大小的增加而趨近於零。基於 Transformer 的語言模型依賴 Softmax 來計算注意力分數,隨著上下文大小的增加,導致注意力分佈變得平坦。這降低了模型有效優先處理關鍵信息的能力,並潛在地限制了其長度泛化能力。為解決此問題,我們提出了可擴展 Softmax(SSMax),在輸入向量大小變化的情況下取代 Softmax。SSMax 可無縫集成到現有的基於 Transformer 的架構中。在語言建模的實驗結果中顯示,使用 SSMax 的模型不僅在預訓練期間實現更快的損失減少,而且在長上下文和關鍵信息檢索方面顯著提高性能。此外,注意力分數的分析顯示,SSMax 使模型能夠在長上下文中專注於關鍵信息。此外,儘管從預訓練開始使用 SSMax 的模型實現更好的長度泛化,但已經開始預訓練的模型仍可以通過在注意力層中將 Softmax 替換為 SSMax(在預訓練期間或之後)來獲得部分此能力。
現有的基礎模型通常將視覺輸入處理為像素,將文本輸入處理為標記,這種範式與人類感知形成對比,人類感知會統一處理這兩種模態。隨著具身和主動式人工智慧的興起,其中的輸入主要來自相機像素,統一感知框架的需求變得日益明顯。在本文中,我們提議將所有模態(文本、表格、代碼、圖表、圖像等)統一為像素輸入,即“將所有事物視為像素”(PEAP)。我們引入了PixelWorld,一個新穎的評估套件,將所有提到的模態統一到像素空間中,以評估現有模型的性能。我們的研究結果顯示:(1)在多模態數據集中,PEAP在性能上優於基於標記輸入的基線,受益於統一輸入以獲得更好的消歧能力;(2)當處理基於像素的輸入時,所有模型的推理和編碼能力顯著下降,強調了增強基礎模型感知能力的必要性;(3)較大的模型可以在PEAP下保持在非推理任務上的強勁表現,而像Phi-3.5-V這樣的較小模型則會遭受顯著的性能下降;(4)PEAP的注意模式與文本標記輸入高度一致;(5)通過利用空間稀疏性,PEAP可以顯著加速。我們得出結論,現有的前沿模型在像素感知方面表現出色,但仍有改進的空間。我們的代碼、數據集將在接受後公開發布。
預測未來結果在物理推理中至關重要。然而,這種被稱為世界模型的預測模型往往難以學習,通常僅針對特定任務解決方案進行開發,並伴隨著在線策略學習。我們認為世界模型的真正潛力在於其能夠僅使用被動數據來進行跨問題的推理和規劃。具體而言,我們要求世界模型具備以下三個特性:1)能夠在離線預先收集的軌跡上進行訓練,2)支持測試時行為優化,3)促進任務不可知的推理。為實現這一目標,我們提出了DINO世界模型(DINO-WM),這是一種新的方法,用於建模視覺動態,而無需重建視覺世界。DINO-WM利用使用DINOv2預先訓練的空間補丁特徵,使其能夠通過預測未來補丁特徵來從離線行為軌跡中學習。這種設計使DINO-WM能夠通過將所需目標補丁特徵視為預測目標,通過行動序列優化實現觀察目標,從而促進任務不可知的行為規劃。我們在各個領域評估了DINO-WM,包括迷宮導航、桌面推動和粒子操作。我們的實驗表明,DINO-WM能夠在測試時生成零樣本行為解決方案,而無需依賴專家示範、獎勵建模或預先學習的逆向模型。值得注意的是,與先前的最新工作相比,DINO-WM表現出強大的泛化能力,適應各種任務系列,如任意配置的迷宮、具有不同物體形狀的推動操作以及多粒子場景。
大型語言模型(LLMs)容易受到通用越獄攻擊的威脅,這些攻擊策略系統性地繞過模型防護措施,使用戶能夠執行需要多次模型交互的有害過程,例如大規模製造非法物質。為了抵禦這些攻擊,我們引入憲法分類器:通過合成數據訓練的防護措施,通過提示LLMs使用自然語言規則(即憲法)生成的合成數據,明確規定允許和限制的內容。在超過3,000個估計的紅隊測試中,沒有一個紅隊成員找到一種通用越獄方法,可以像在大多數目標查詢中的未受保護模型那樣以相似細節水平從早期受分類器保護的LLM中提取信息。在自動評估中,增強的分類器展示了對領域特定越獄攻擊的強大防禦能力。這些分類器還保持了部署的可行性,生產流量拒絕率絕對增加了0.38%,推理開銷增加了23.7%。我們的工作表明,防禦通用越獄攻擊並保持實際部署可行性是可行的。
擴散模型雖然功能強大,但可能會意外生成有害或不良內容,引發重大的道德和安全疑慮。最近的機器遺忘方法提供潛在解決方案,但往往缺乏透明度,使人難以理解它們對基礎模型引入的變化。在這項工作中,我們介紹了SAeUron,一種利用稀疏自編碼器(SAEs)學習的特徵來消除文本到圖像擴散模型中不需要的概念的新方法。首先,我們展示了在多個去噪時間步驟的擴散模型激活上以非監督方式訓練的SAEs捕獲了對應特定概念的稀疏且可解釋的特徵。基於此,我們提出了一種特徵選擇方法,使模型激活上的精確干預能夠阻止目標內容,同時保持整體性能。通過對物體和風格遺忘的競爭性UnlearnCanvas基準的評估突顯了SAeUron的最先進性能。此外,我們展示了單個SAE可以同時移除多個概念,並且與其他方法相比,SAeUron減輕了即使在對抗性攻擊下也可能生成不需要的內容的可能性。代碼和檢查點可在以下網址獲得:https://github.com/cywinski/SAeUron。
我們展示了大型模型訓練的學習率時間表行為與非光滑凸優化理論的性能界限驚人地相似。我們提供了一個常數時間表與線性冷卻的界限;特別是,由於缺乏對數項,冷卻的實際好處反映在這個界限中。此外,我們展示了優化理論與實踐之間這種驚人的密切匹配可以用於學習率調整:通過(i)擴展時間表以進行持續訓練並使用最佳學習率,以及(ii)在不同時間表之間轉移最佳學習率,我們實現了對於訓練124M和210M類Llama模型的顯著改進。
目前用於從稀疏姿勢圖像重建3D場景的方法採用中間3D表示,如神經場、體素網格或3D高斯,以實現多視一致的場景外觀和幾何。本文介紹了MVGD,一種基於擴散的架構,能夠直接在像素級別從新視點生成圖像和深度地圖,給定任意數量的輸入視圖。我們的方法使用射線映射條件來增強視覺特徵,並從不同視點引導圖像和深度地圖的生成。我們方法的一個關鍵方面是通過可學習的任務嵌入來引導擴散過程朝向特定模態進行圖像和深度地圖的多任務生成。我們在一組來自公開數據集的超過6000萬多視圖樣本上訓練這個模型,並提出了一些技術,以實現在這樣多樣條件下的高效且一致的學習。我們還提出了一種新穎的策略,通過逐步微調較小的模型來實現更大模型的高效訓練,具有有前途的擴展行為。通過大量實驗,我們在多個新視圖合成基準測試中報告了最新的結果,以及多視圖立體和視頻深度估計。
我們對增加推論時間計算對推理模型(具體來說是OpenAI o1-preview和o1-mini)對抗對抗攻擊的韌性的影響進行實驗。我們發現,在各種攻擊中,增加推論時間計算會提高韌性。在許多情況下(有重要的例外情況),隨著測試時間計算量的增加,攻擊成功的模型樣本比例趨近於零。我們對我們研究的任務未進行任何對抗訓練,僅通過允許模型在推理過程中花費更多計算量來增加推論時間計算,獨立於攻擊形式。我們的結果表明,推論時間計算有潛力提高大型語言模型的對抗韌性。我們還探索了針對推理模型的新攻擊,以及推論時間計算無法提高可靠性的情況,並推測了這些情況的原因以及解決方法。
鑒於最近引入了多種語言模型並持續對改進自然語言處理任務,特別是摘要,有著需求,本研究提供了對20個最新語言模型的全面基準測試,專注於較小的模型用於新聞摘要任務。在這項研究中,我們系統地測試了這些模型在摘要新聞文章文本方面的能力和效果,這些文章以不同風格撰寫並呈現在三個不同的數據集中。具體來說,我們在這項研究中專注於零樣本和少樣本學習設置,並應用了結合不同評估概念的堅固評估方法,包括自動指標、人工評估和以LLM為評判者。有趣的是,在少樣本學習設置中包含示範例子並未提升模型的表現,甚至在某些情況下,導致生成摘要的質量更差。這個問題主要是由於使用作為參考摘要的金標摘要質量不佳,對模型的表現產生負面影響。此外,我們研究的結果突顯了GPT-3.5-Turbo和GPT-4的卓越表現,通常由於其先進的能力而佔主導地位。然而,在評估的公共模型中,某些模型如Qwen1.5-7B、SOLAR-10.7B-Instruct-v1.0、Meta-Llama-3-8B和Zephyr-7B-Beta展現出有前途的結果。這些模型展示了顯著的潛力,使它們成為新聞摘要任務的具有競爭力的替代方案。
本文解決了從具有動態內容的視頻中重建3D結構的長期挑戰。目前解決這個問題的方法並不適用於由標準攝像機錄製的隨意視頻,或需要長時間進行優化。 為了顯著提高先前方法的效率,我們提出了TracksTo4D,這是一種基於學習的方法,可以從來自隨意視頻的動態內容中推斷3D結構和相機位置,並僅需進行一次高效的前向傳遞。為了實現這一目標,我們提出直接在2D點軌跡上進行操作,並設計了一個專門用於處理2D點軌跡的架構。我們提出的架構設計考慮了兩個關鍵原則:(1)考慮輸入點軌跡數據中存在的固有對稱性,以及(2)假設運動模式可以有效地使用低秩逼近表示。TracksTo4D通過在一個由隨意視頻組成的數據集上以無監督方式進行訓練,僅利用從視頻中提取的2D點軌跡,而無需任何3D監督。我們的實驗表明,TracksTo4D可以重建底層視頻的時間點雲和相機位置,其準確性與最先進的方法相當,同時將運行時間大幅減少高達95%。我們進一步展示,TracksTo4D在推斷時對看不見的語義類別的未見視頻具有良好的泛化能力。
通用任務提示式影像分割旨在透過僅利用一個通用任務提示,在單一任務描述下實現對多樣樣本的分割。目前的方法利用視覺語言模型(VLMs)的泛化能力,從這些通用任務提示中推斷出特定實例的提示,以引導分割過程。然而,當VLMs難以對某些影像實例進行泛化時,預測特定實例的提示效果不佳。為解決這個問題,我們引入了針對通用任務提示式分割的特定實例負採樣(INT)。INT的關鍵思想是在生成特定實例提示時,自適應地減少無關(負面)先前知識的影響,同時增加對負採樣選擇的最合理先前知識的使用,以優化特定實例提示的生成。具體而言,INT包括兩個組件:(1)特定實例提示生成,逐步過濾提示生成中的不正確信息;(2)語義遮罩生成,確保每個影像實例的分割與特定實例提示的語義正確匹配。INT在六個數據集上進行驗證,包括偽裝物體和醫學影像,展示了其有效性、韌性和可擴展性。
為了降低大型語言模型(LLMs)中長篇推論的記憶成本,許多最近的研究專注於壓縮不同標記的關鍵-值(KV)快取。然而,我們發現先前的KV快取壓縮方法是以個別衡量標記重要性,忽略了現實語言特性中不同標記之間的依賴關係。基於這一點,我們引入了ChunkKV,將一組標記作為基本壓縮單元,保留最具信息量的語義塊,同時捨棄較不重要的部分。此外,觀察到ChunkKV在不同層之間保留索引時呈現較高的相似性,我們提出了層級索引重複使用,進一步降低計算開銷。我們在包括LongBench和Needle-In-A-HayStack在內的尖端長篇推論基準測試中評估了ChunkKV,以及GSM8K和JailbreakV的上下文學習基準測試。我們對指令調整和多步推理(O1和R1)LLMs進行了實驗,在激進的壓縮比下,與現有方法相比實現了高達10\%的性能改善。