每日精選AI研究論文及翻譯
監督微調(SFT)通常用於訓練語言模型來模仿給定指示的標註回應。在本文中,我們挑戰這種範式,提出批判微調(CFT),一種策略,模型學習批判嘈雜的回應,而不僅僅是模仿正確的回應。受強調批判性思維的人類學習過程的啟發,CFT鼓勵更深入的分析和細緻的理解,這些特質通常被標準SFT所忽略。為驗證CFT的有效性,我們從WebInstruct構建了一個包含50K樣本的數據集,使用GPT-4o作為教師生成評論,形式為(輸入=[查詢; 嘈雜回應],輸出=評論)。在這個數據集上進行的CFT相對於六個數學基準測試中的SFT,使用不同基礎模型如Qwen2.5、Qwen2.5-Math和DeepSeek-Math,實現了一致的4-10%改進。我們進一步擴展到MetaMath和NuminaMath數據集,觀察到相對於SFT的類似增益。值得注意的是,我們的Qwen2.5-Math-CFT模型-僅在50K樣本上訓練-在大多數基準測試中與競爭模型如AceMath和Qwen2.5-Math-Instruct匹敵或表現更好,後者使用了超過2M樣本。消融研究表明,CFT對於嘈雜回應來源和教師評論模型都具有韌性。通過這些發現,我們主張基於批判的訓練提供了一種更有效的替代方案,以推進語言模型的推理能力。
我們介紹了 Atla Selene Mini,一款最先進的小型語言模型作為評判(SLMJ)。Selene Mini 是一個通用的評估器,在跨越絕對評分、分類和兩兩偏好任務的 11 個超出分佈基準上表現優於最佳的 SLMJs 和 GPT-4o-mini。它是在 RewardBench 上得分最高的 8B 生成模型,超越了像 GPT-4o 和專門的評判這樣的強基準。為了實現這一點,我們開發了一個合理的數據精選策略,通過合成生成的評論來擴充公共數據集,並通過過濾和數據集刪除來確保高質量。我們在結合了直接偏好優化(DPO)和監督微調(SFT)損失的訓練下,培養出一個高度可提示的評估器,在現實情境中表現出色。Selene Mini 在金融和醫療行業數據集上與人類專家評估的零-shot一致性顯著提高。它也對提示格式的變化具有韌性。初步結果表明,Selene Mini 是一個在現場、由社區驅動的評判競技場中排名最高的評估器。我們在 HuggingFace(https://hf.co/AtlaAI/Selene-1-Mini-Llama-3.1-8B)和 Ollama 上釋出模型權重,以鼓勵廣泛的社區採用。
人工智慧(AI)的快速增長,尤其是大型語言模型(LLMs),引發了對其全球環境影響的擔憂,這超出了溫室氣體排放的範疇,還包括對硬體製造和生命週期過程的考量。主要供應商的不透明度阻礙了企業評估其AI相關環境影響並實現淨零目標的能力。 本文提出了一種方法來估算公司AI投資組合的環境影響,提供可行的見解,而無需大量的AI和生命週期評估(LCA)專業知識。結果證實,大型生成式AI模型的能耗可高達傳統模型的4600倍。我們的建模方法考慮了增加的AI使用量、硬體計算效率以及與IPCC情景一致的電力組合變化,預測AI電力使用量直至2030年。在一個高採用情景下,由廣泛採用生成式AI和代理人所驅動,這些代理人與日益複雜的模型和框架相關聯,AI電力使用量預計將增加24.4倍。 到2030年,減輕生成式AI的環境影響需要AI價值鏈上的協調努力。僅僅依靠硬體效率、模型效率或電網改進的孤立措施是不夠的。我們主張建立標準化的環境評估框架,從價值鏈的所有參與者獲得更大的透明度,並引入“環境回報”指標,以使AI發展與淨零目標保持一致。
基於圖像的虛擬試穿(VTON)旨在通過將輸入的服裝轉移到目標人物的圖像上生成虛擬試穿結果。然而,由於缺乏配對的服裝-模型數據,現有方法很難在VTON中實現高通用性和質量。這也限制了生成無遮罩試穿的能力。為了應對數據稀缺問題,方法如穩定服裝和MMTryon使用合成數據策略,有效地增加了模型端的配對數據量。然而,現有方法通常僅限於執行特定的試穿任務,並且缺乏用戶友好性。為了增強VTON生成的通用性和可控性,我們提出了Any2AnyTryon,它可以根據不同的文本指令和模型服裝圖像生成試穿結果,以滿足各種需求,消除對遮罩、姿勢或其他條件的依賴。具體來說,我們首先構建了虛擬試穿數據集LAION-Garment,這是已知的最大開源服裝試穿數據集。然後,我們引入了自適應位置嵌入,使模型能夠基於不同尺寸和類別的輸入圖像生成滿意的穿著模型圖像或服裝圖像,從而顯著增強了VTON生成的通用性和可控性。在我們的實驗中,我們展示了Any2AnyTryon的有效性並將其與現有方法進行了比較。結果表明,Any2AnyTryon實現了靈活、可控和高質量的基於圖像的虛擬試穿生成。
本文研究人類在檢測商用LLM(GPT-4o、Claude、o1)生成文本方面的表現。我們聘請標註者閱讀300篇非虛構英文文章,將它們標記為人類撰寫或AI生成,並提供段落長度的決策解釋。我們的實驗表明,經常使用LLM進行寫作任務的標註者在檢測AI生成文本方面表現出色,即使沒有接受任何專門培訓或反饋。事實上,五位這樣的「專家」標註者中的多數投票僅將300篇文章中的1篇錯誤歸類,明顯優於我們評估的大多數商用和開源檢測器,即使存在重述和人性化等迴避策略。對專家的自由形式解釋進行的定性分析顯示,他們雖然在很大程度上依賴特定詞彙線索(「AI詞彙」),但也能捕捉到文本內部更複雜的現象(例如,正式性、獨創性、清晰度),這對於自動檢測器來說是具有挑戰性的。我們公開了我們的標註數據集和代碼,以促進未來對人類和自動檢測AI生成文本的研究。
大型語言模型(LLMs)已成為我們日常生活中不可或缺的一部分。然而,它們帶來了一些風險,包括可能損害個人隱私、持續存在偏見並傳播錯誤信息。這些風險凸顯了需要強健的安全機制、道德準則和全面測試,以確保它們的負責任部署。LLMs的安全性是一個關鍵特性,需要在模型部署和向一般用戶提供之前進行全面測試。本文報告了蒙德拉貢大學和塞維利亞大學的研究人員在OpenAI的o3-mini LLM上進行的外部安全測試經驗,作為OpenAI早期安全測試計劃的一部分。具體而言,我們應用我們的工具ASTRAL,自動並系統地生成最新的不安全測試輸入(即提示),以幫助我們測試和評估LLMs的不同安全類別。我們自動生成並執行了總共10,080個不安全的測試輸入在o3-mini的早期測試版本上。在通過ASTRAL手動驗證被歸類為不安全的測試案例後,我們識別出總共87個實際的不安全LLM行為實例。我們突出了在OpenAI最新LLM的部署前外部測試階段中發現的關鍵見解和結果。
最近的研究顯示,大型語言模型(LLMs)容易受到有害的微調攻擊影響 - 模型在微調幾個有害樣本後失去了其安全對齊能力。為了風險緩解,通常會使用一個護欄來在微調之前過濾有害樣本。通過設計一種新的紅隊方法,我們在本文中展示,僅依賴於護欄進行數據過濾並不可靠。我們提出的攻擊方法被稱為病毒,通過輕微修改有害數據輕鬆地繞過了護欄的過濾。實驗結果顯示,經病毒優化的有害數據在高達100%的洩漏率下無法被護欄檢測到,同時可以實現卓越的攻擊性能。最後,我們希望通過本文傳達的關鍵信息是:將護欄過濾視為對抗有害微調攻擊的救命稻草是魯莽的,因為它無法解決預先訓練的LLMs固有的安全問題。我們的程式碼可在 https://github.com/git-disl/Virus 找到。