每日精選AI研究論文及翻譯
隨著大型語言模型(LLMs)對安全關鍵應用的影響日益增加,利用護欄確保其安全性仍然是一個關鍵挑戰。本文提出了GuardReasoner,一種新的LLMs保護機制,通過引導護欄模型學習推理。具體而言,我們首先創建了GuardReasonerTrain數據集,其中包含127K個樣本,460K個詳細的推理步驟。然後,我們引入推理SFT以發揮護欄模型的推理能力。此外,我們提出了困難樣本DPO以進一步加強其推理能力。通過這種方式,GuardReasoner實現了更好的性能、可解釋性和泛化能力。對3個護欄任務的13個基準進行了廣泛的實驗和分析,證明了其優越性。值得注意的是,GuardReasoner 8B在平均F1分數上超越了GPT-4o+CoT 5.74%,超過LLaMA Guard 3 8B 20.84%。我們釋出了不同規模(1B、3B、8B)的GuardReasoner的訓練數據、代碼和模型:https://github.com/yueliu1999/GuardReasoner/。
大型語言模型(LLMs)如OpenAI的o1已經展示出在複雜推理任務中的卓越能力,通過擴展測試時計算並展現類似人類深度思考的特性。然而,我們識別到一種我們稱之為“思維不足”的現象,即類似o1的LLMs經常在不同推理思維之間切換,而沒有充分探索有潛力達到正確解決方案的途徑。這種行為導致推理深度不足和性能下降,特別是在具有挑戰性的數學問題上。為了系統地分析這個問題,我們在三個具有挑戰性的測試集和兩個代表性的開源o1-like模型上進行實驗,揭示頻繁的思維切換與錯誤回答之間的相關性。我們引入了一個新的指標來量化思維不足,通過測量錯誤答案中的標記效率來衡量。為了解決思維不足問題,我們提出了一種解碼策略,即思維切換懲罰(TIP),它阻止過早地在不同思維之間轉換,鼓勵對每個推理路徑進行更深入的探索。實驗結果表明,我們的方法提高了在具有挑戰性的數據集上的準確性,而無需對模型進行微調。我們的研究有助於理解o1-like LLMs中推理效率的問題,並提供了一個實用的解決方案來增強它們的解決問題的能力。
大型語言模型(LLMs)的訓練通常分佈在大量加速器上,以減少訓練時間。由於在每個梯度步驟中需要交換內部狀態和參數梯度,因此所有設備都需要位於同一位置,使用低延遲高帶寬的通信連結,以支持所需的高交換位元數量。最近,像DiLoCo這樣的分佈式算法已經放寬了這種同一位置的限制:加速器可以分組為“工作器”,其中工作器之間的同步只會偶爾發生。這意味著工作器可以使用較低帶寬的通信連結連接,而不會影響學習質量。然而,在這些方法中,跨工作器的通信仍然需要與以前相同的峰值帶寬,因為同步需要在所有工作器之間交換所有參數。在本文中,我們以三種方式改進了DiLoCo。首先,我們僅按順序同步參數的子集,而不是一次同步所有參數,這大大降低了峰值帶寬。其次,我們允許工作器在同步時繼續訓練,這減少了牆上時鐘時間。第三,我們對工作器交換的數據進行量化,進一步降低了工作器之間的帶寬。通過適當結合這些修改,我們實驗性地展示,我們可以分佈式訓練十億級參數並達到與以前相似的質量,但將所需帶寬降低了兩個數量級。
DeepSeek-R1的出現標誌著AI行業整體以及LLM領域的一個轉折點。其能力在多項任務中展現出優異表現,包括創意思維、程式碼生成、數學和自動程式修復,並且似乎以較低的執行成本達到這些成就。然而,LLM必須遵守一個重要的質量屬性,即與安全性和人類價值觀的一致性。DeepSeek-R1的明顯競爭對手是其美國對應物,OpenAI的o3-mini模型,預計在性能、安全性和成本方面設定高標準。本文對DeepSeek-R1(70b版本)和OpenAI的o3-mini(beta版本)的安全級別進行系統評估。為此,我們利用我們最近發布的自動安全測試工具ASTRAL。通過利用該工具,我們自動並系統地在兩個模型上生成並執行了總共1260個不安全的測試輸入。在對兩個LLM提供的結果進行半自動評估後,結果顯示DeepSeek-R1相對於OpenAI的o3-mini來說非常不安全。根據我們的評估,DeepSeek-R1對執行的提示作出不安全回答的比例為11.98%,而o3-mini僅為1.19%。
大型語言模型展現了許多智能能力。儘管有許多基準評估它們的智能,但對於它們的探索能力卻給予有限的關注,而這是在自然和人工系統中發現新信息並適應新環境的重要能力。LLM在開放式任務中能否有效地進行探索,尤其是在開放式任務中,仍然不清楚。本研究探討了LLM在開放式任務中是否能超越人類在探索方面的能力,使用Little Alchemy 2作為範例,其中代理人結合元素以發現新元素。結果顯示,除了o1模型外,大多數LLM表現不及人類,這些傳統LLM主要依賴於不確定性驅動的策略,不像人類那樣平衡不確定性和賦權。通過對具有稀疏自編碼器的模型進行表徵分析,發現不確定性和選擇是在較早的變壓器塊中表示的,而賦權值則在後期處理,導致LLM思考過快並做出過早的決定,阻礙了有效的探索。這些發現揭示了LLM探索的限制,並提出了改善它們適應性的方向。
我們介紹了 MedXpertQA,這是一個極具挑戰性和全面性的基準,用於評估專家級醫學知識和高級推理能力。MedXpertQA 包含 4,460 個問題,涵蓋了 17 個專業領域和 11 個身體系統。它包括兩個子集,Text 用於文本評估,MM 用於多模態評估。值得注意的是,MM 引入了具有多樣圖像和豐富臨床信息的專家級考試問題,包括病人記錄和檢查結果,使其與僅從圖像標題生成的傳統醫學多模態基準有所不同。MedXpertQA 通過嚴格的篩選和擴充來解決現有基準(如 MedQA)的不足難度問題,並納入專科委員會問題以提高臨床相關性和全面性。我們進行數據合成以減輕數據泄漏風險,並進行多輪專家審查以確保準確性和可靠性。我們在 MedXpertQA 上評估了 16 個領先模型。此外,醫學與現實世界的決策密切相關,為評估超越數學和代碼的推理能力提供了豐富和具代表性的場景。為此,我們開發了一個以推理為導向的子集,以促進對 o1-like 模型的評估。
語言模型(LLM)的事後訓練,從DPO到蒸餾,可以精煉行為並開啟新技能,但支持這些事後訓練技術的開放科學仍處於起步階段。一個限制因素是進行大規模比較分析合成數據生成模型和LLM評判的困難。為了彌補這一差距,我們介紹了迄今為止最大的公共聊天數據集WILDCHAT-50M。我們擴展現有的WildChat數據集,不僅包括來自GPT的回應,還包括來自50多種不同的開放權重模型,其參數大小範圍從0.5B到104B。我們進行了廣泛的比較分析,並通過創建RE-WILD來展示這個數據集的潛力,我們自己的公共SFT混合,在僅有Tulu-3 SFT混合40%樣本的情況下,優於Allen AI最近的Tulu-3 SFT混合。我們的數據集、樣本和代碼可在https://github.com/penfever/wildchat-50m找到。
本文介紹了 SANA-1.5,一種用於文本到圖像生成的線性擴散變壓器,以實現高效擴展。在 SANA-1.0 的基礎上,我們引入了三項關鍵創新:(1) 高效訓練擴展:一種深度增長範式,可實現從 16 億到 48 億參數的擴展,並顯著降低計算資源,結合了記憶體高效的 8 位優化器。(2) 模型深度修剪:一種區塊重要性分析技術,用於實現對模型進行高效壓縮至任意大小,並最小化質量損失。(3) 推論時擴展:一種重複取樣策略,以交換計算量為模型容量,使較小的模型在推論時能夠達到與較大模型相同的質量。通過這些策略,SANA-1.5 在 GenEval 上實現了 0.72 的文本-圖像對齊分數,通過推論擴展可以進一步提高至 0.80,建立了 GenEval 基準上的新 SoTA。這些創新使得在不同計算預算下實現高效的模型擴展,同時保持高質量,使高質量圖像生成更加可行。
在具體化人工智慧中,理解物理世界是一個基本挑戰,對於使代理人能夠執行複雜任務並在現實環境中安全運作至關重要。雖然視覺語言模型(VLMs)在推理和任務規劃方面顯示出巨大潛力,但它們對於理解物理現象的能力仍然非常有限。為了彌補這一差距,我們引入了PhysBench,這是一個全面的基準測試,旨在評估VLMs在各種任務中對物理世界理解能力。PhysBench包含10,002條交錯的視頻-圖像-文本數據,分為四個主要領域:物理物體特性、物理物體關係、物理場景理解和基於物理的動態,進一步劃分為19個子類和8個不同的能力維度。我們進行了大量實驗,對75個代表性的VLMs進行了測試,結果顯示,儘管這些模型在常識推理方面表現出色,但它們在理解物理世界方面仍然困難--這可能是由於它們的訓練數據中缺乏物理知識和缺乏嵌入式物理先驗知識所致。為了應對這一不足,我們引入了PhysAgent,這是一個結合了VLMs的泛化優勢和視覺模型專業知識的新框架,顯著增強了VLMs在各種任務中對物理理解的能力,包括GPT-4o的18.4%改進。此外,我們的結果表明,增強VLMs對物理世界理解能力可以幫助像MOKA這樣的具體化代理人。我們相信,PhysBench和PhysAgent提供了寶貴的見解,有助於彌合VLMs和物理世界理解之間的差距。
儘管許多關於網路代理的研究強調了代理人自主執行任務的潛力,但實際上,在現實世界的情境中,代理人往往無法完成複雜任務和建模使用者偏好。這為人類與代理人合作並有效利用代理人能力提供了機會。我們提出了CowPilot,一個支持自主以及人-代理人協作網路導航的框架,並跨任務成功和任務效率進行評估。CowPilot通過允許代理人提出下一步驟來減少人類需要執行的步驟數,同時用戶可以暫停、拒絕或採取替代行動。在執行過程中,用戶可以通過覆蓋建議或在需要時恢復代理人控制來交錯他們的行動與代理人的行動。我們對五個常見網站進行了案例研究,發現人-代理人協作模式實現了95%的最高成功率,只需要人類執行總步驟的15.2%。即使在任務執行過程中有人類干預,代理人也能獨立成功推動高達一半的任務成功。CowPilot可以作為跨網站數據收集和代理人評估的有用工具,我們相信這將促進關於使用者和代理人如何共同工作的研究。視頻演示可在https://oaishi.github.io/cowpilot.html中找到。