每日精選AI研究論文及翻譯
我們提出了Adam-mini,這是一種優化器,其在記憶體佔用上比AdamW表現相當或更好,並且記憶體佔用量減少了45%至50%。Adam-mini通過降低Adam中學習率資源(即1/v)來減少記憶體使用量。我們發現,在v中,超過90%的這些學習率可以被安全地移除,方法是:(1)根據我們提出的海森矩陣結構原則,仔細將參數劃分為塊;(2)為每個參數塊分配一個單一但良好的學習率。我們進一步發現,對於每個這些參數塊,存在一個高質量的單一學習率,可以勝過Adam,前提是有足夠的資源來搜索它。然後,我們提供了一種成本效益的方法來找到良好的學習率,並提出Adam-mini。在實驗中,我們驗證了Adam-mini在從125M到7B的各種語言模型上進行預訓練、監督微調和RLHF時的表現與AdamW相當或更好。Adam-mini的減少記憶體佔用量還減輕了GPU和CPU之間的通信開銷,從而提高了吞吐量。例如,當在2倍A800-80GB GPU上對Llama2-7B進行預訓練時,Adam-mini的吞吐量比AdamW高出49.6%,節省了33%的預訓練時間。
人工智慧代理在各個領域變得越來越重要,使得自主決策和問題解決成為可能。為了有效運作,這些代理需要一個規劃過程,該過程確定最佳行動方案,然後執行計劃中的行動。本文提出了一個高效的裝置內規劃-行動框架,將規劃和行動執行分為兩個不同的組件:基於 Phi-3 Mini 的規劃代理,這是一個針對邊緣裝置優化的擁有 38 億參數的 LLM 模型,以及使用 Octopus 模型進行功能執行的行動代理。規劃代理首先通過將任務分解為一系列子步驟來回應用戶查詢,然後由行動代理執行這些子步驟。為了在資源受限的裝置上優化性能,我們採用模型微調而非上下文學習,從而降低計算成本和能源消耗,同時提高響應時間。我們的方法包括使用 GPT-4 根據可用功能生成多樣化的規劃查詢和回應,然後進行後續驗證以確保數據質量。我們在這個經過精心策劃的數據集上對 Phi-3 Mini 模型進行微調,並在我們的領域測試環境中實現了 97% 的成功率。為應對多領域規劃挑戰,我們開發了一種多-LoRA 訓練方法,將在不同功能子集上訓練的 LoRA 的權重合併。這種方法實現了對複雜的多領域查詢的靈活處理,同時在資源受限的裝置上保持計算效率。為了支持進一步的研究,我們已在 https://huggingface.co/NexaAIDev/octopus-planning 上開源我們的模型權重。有關演示,請參閱 https://www.nexa4ai.com/octo-planner。
在應用多模態大型語言模型(MLLMs)進行分析科學論文或財務報告等實際任務時,圖表理解扮演著至關重要的角色。然而,現有數據集通常專注於過於簡化和同質化的圖表,並使用基於模板的問題,這導致對進展的過於樂觀評估。我們展示,儘管開源模型在這些基準測試上似乎優於強大的專有模型,但通過稍微不同的圖表或問題進行簡單的壓力測試,性能可能下降高達34.5%。在這項工作中,我們提出了CharXiv,這是一個包含來自arXiv論文的2,323個自然、具挑戰性和多樣化圖表的全面評估套件。CharXiv包括兩類問題:1)關於檢查基本圖表元素的描述性問題,以及2)需要在圖表中複雜視覺元素之間綜合信息的推理問題。為確保質量,所有圖表和問題均由人類專家手工挑選、編輯和驗證。我們的結果揭示了最強大的專有模型(即GPT-4o)的推理能力與最強大的開源模型(即InternVL Chat V1.5)之間存在著一個實質且先前被低估的差距,GPT-4o實現了47.1%的準確率,而InternVL Chat V1.5實現了29.2%。所有模型遠遠落後於人類的80.5%的表現,突顯了現有MLLMs在圖表理解能力上的弱點。我們希望CharXiv通過提供更現實和忠實的進展評估,促進未來關於MLLM圖表理解的研究。項目頁面和排行榜:https://charxiv.github.io/
我們提出了一個新穎的文本到視頻(T2V)生成基準,ChronoMagic-Bench,用於評估T2V模型(例如Sora和Lumiere)在延時視頻生成中的時間和變形能力。與現有基準不同,這些基準著重於生成視頻的視覺質量和文本相關性,ChronoMagic-Bench則專注於模型生成具有顯著變形幅度和時間連貫性的延時視頻的能力。該基準通過自由形式文本查詢探測T2V模型的物理、生物和化學能力。為此,ChronoMagic-Bench引入了1,649個提示和現實世界視頻作為參考,分為四大類延時視頻:生物、人造、氣象和物理現象,進一步細分為75個子類別。這種分類全面評估了模型處理多樣和複雜變換的能力。為了準確對齊人類偏好與基準,我們引入了兩個新的自動指標,MTScore和CHScore,用於評估視頻的變形屬性和時間連貫性。MTScore衡量變形幅度,反映隨時間變化的程度,而CHScore評估時間連貫性,確保生成的視頻保持邏輯進展和連貫性。基於ChronoMagic-Bench,我們對十個具代表性的T2V模型進行全面手動評估,揭示它們在不同提示類別中的優勢和劣勢,並提供一個全面的評估框架,解決了視頻生成研究中的現有缺口。此外,我們創建了一個大規模的ChronoMagic-Pro數據集,包含460k對720p高質量延時視頻和詳細說明,確保高物理相關性和大變形幅度。
由於其獨特特性和卓越表現,混合專家(Mixture-of-experts,MoE)架構尤其在語言任務中受到越來越多的關注。通過對每個標記稀疏激活一個參數子集,MoE架構可以增加模型大小而不影響計算效率,實現更好的性能和訓練成本之間的折衷。然而,MoE的基本機制仍缺乏進一步探索,其模塊化程度仍有待商榷。本文首次嘗試理解基於MoE的大型語言模型的內部運作。具體而言,我們全面研究了三個最近基於MoE的模型的參數和行為特徵,並揭示了一些有趣的觀察,包括(1)神經元的行為類似細粒度專家;(2)MoE的路由器通常選擇輸出範數較大的專家;(3)隨著層數增加,專家多樣性增加,而最後一層是個例外。基於這些觀察,我們還為廣泛範疇的MoE從業者提供建議,例如路由器設計和專家分配。我們希望這項工作能為MoE框架和其他模塊化架構的未來研究提供一些啟示。代碼可在https://github.com/kamanphoebe/Look-into-MoEs找到。
我們介紹 WildGuard — 一個針對 LLM 安全性的開放、輕量級審查工具,實現三個目標:(1) 辨識使用者提示中的惡意意圖,(2) 檢測模型回應的安全風險,以及(3) 確定模型的拒絕率。通過 WildGuard,滿足了自動安全性審查和 LLM 互動評估日益增長的需求,提供了一站式工具,具有增強的準確性,並在 13個風險類別中提供廣泛覆蓋。雖然現有的開放式審查工具如 Llama-Guard2 在分類直接模型互動方面表現良好,但在識別對抗性越獄和評估模型拒絕方面遠遠落後於提示的 GPT-4,後者是評估模型回應安全行為的關鍵指標。 為應對這些挑戰,我們構建了 WildGuardMix,一個大規模且精心平衡的多任務安全性審查數據集,包含 92K 個標記範例,涵蓋了原始(直接)提示和對抗性越獄,並配對各種拒絕和遵從回應。WildGuardMix 是 WildGuard 的訓練數據 WildGuardTrain 和高質量的人工標記審查測試集 WildGuardTest 的結合,後者包含 5K 個標記項目,涵蓋廣泛的風險情境。通過對 WildGuardTest 和十個現有公開基準的廣泛評估,我們展示了 WildGuard 在開源安全性審查中在所有三個任務上的最新表現,相較於十個強大的現有開源審查模型(例如,拒絕檢測提升高達 26.4%)。重要的是,WildGuard 與 GPT-4 的表現相匹敵,有時甚至超越(例如,提示有害性識別提升高達 3.9%)。WildGuard 在 LLM 介面中作為高效的安全性審查員,將越獄攻擊的成功率從 79.8% 降低至 2.4%。
電子健康記錄(EHRs)對於存儲全面的病人醫療記錄至關重要,結合了結構化數據(例如藥物)與詳細的臨床註釋(例如醫生註記)。這些元素對於簡單的數據檢索至關重要,並提供了對病人護理的深入、情境化洞察。然而,由於不直觀的EHR系統設計和人為錯誤,它們往往存在差異,對病人安全構成嚴重風險。為了應對這一問題,我們開發了EHRCon,這是一個新的數據集和任務,專門旨在確保EHR中結構化表格和非結構化註釋之間的數據一致性。EHRCon是通過與醫療專業人員合作使用MIMIC-III EHR數據集精心製作的,包括對105個臨床註釋中的3,943個實體進行手動標註,以確保與數據庫記錄的一致性。EHRCon有兩個版本,一個使用原始的MIMIC-III架構,另一個使用OMOP CDM架構,以增加其應用性和泛化性。此外,利用大型語言模型的能力,我們引入了CheckEHR,這是一個用於驗證臨床註釋和數據庫表格一致性的新框架。CheckEHR利用八階段過程,在少樣本和零樣本設置下展現了有前途的結果。代碼可在https://github.com/dustn1259/EHRCon找到。
AI 社群一直在探索通往人工通用智能 (AGI) 的途徑,通過開發「語言代理」,這是複雜的大型語言模型 (LLMs) 管道,涉及提示技術和工具使用方法。雖然語言代理展示了在許多現實任務中的令人印象深刻的能力,但目前語言代理研究的一個基本限制是它們是以模型為中心,或者以工程為中心。也就是說,語言代理的提示、工具和管道的進展需要來自人類專家的大量手動工程努力,而不是自動從數據中學習。我們認為從以模型為中心或以工程為中心轉向以數據為中心,即語言代理能夠自主學習並在環境中進化的能力,是它們可能實現 AGI 的關鍵。 在本研究中,我們介紹了代理符號學習,這是一個系統性框架,使語言代理能夠以數據為中心的方式使用符號優化器自行優化自己。具體來說,我們將代理視為符號網絡,其中可學習的權重由提示、工具和它們如何堆疊來定義。代理符號學習旨在通過模仿聯結學習中的兩個基本算法:反向傳播和梯度下降,來優化語言代理內的符號網絡。代理符號學習不是處理數值權重,而是使用權重、損失和梯度的自然語言模擬。我們在標準基準和複雜現實任務上進行概念驗證實驗,結果顯示代理符號學習使語言代理能夠在創建並部署後更新自己,在野外演化,形成「自我演化代理」。
足球是一項全球受歡迎的運動,擁有廣泛的觀眾群。本文考慮構建一個自動足球比賽評論模型,以提升觀眾的觀賞體驗。總的來說,我們做出以下貢獻:首先,觀察現有數據集中普遍存在的視頻文本不一致性問題,我們手動為49場比賽標註了時間戳,建立了一個更穩健的足球比賽評論生成基準,稱為SN-Caption-test-align;其次,我們提出了一個多模態時間對齊流程,以自動在大規模上校正和過濾現有數據集,創建了一個更高質量的足球比賽評論數據集進行訓練,命名為MatchTime;第三,基於我們的精心策劃數據集,我們訓練了一個自動評論生成模型,名為MatchVoice。大量實驗和消融研究已經證明了我們對齊流程的有效性,以及在精心策劃的數據集上訓練模型實現了評論生成的最新性能,展示了更好的對齊可以在下游任務中帶來顯著的性能改進。
大型語言模型(LLMs)展示了令人印象深刻的推理能力,特別是在文本數學問題解決方面。然而,現有的開源圖像指令微調數據集對每個圖像包含的問答對數量有限,並未充分利用視覺信息來增強多模態語言模型(MLLMs)的數學推理能力。為彌補這一差距,我們通過從24個現有數據集中收集40K張高質量圖像及其問答對,並合成320K個新對,創建了MathV360K數據集,從而擴展了多模態數學問題的廣度和深度。我們介紹了Math-LLaVA,這是一個基於LLaVA-1.5的模型,通過MathV360K進行微調。這種新穎方法顯著提高了LLaVA-1.5的多模態數學推理能力,使其在MathVista的minitest分割上實現了19個點的增長,並達到了與GPT-4V相當的性能。此外,Math-LLaVA展示了增強的泛化能力,在MMMUBenchmark上實現了顯著的改進。我們的研究凸顯了數據集多樣性和合成在提升MLLMs數學推理能力方面的重要性。代碼和數據可在以下鏈接獲取:https://github.com/HZQ950419/Math-LLaVA。
我們介紹 WildTeaming,一個自動的LLM安全紅隊框架,通過挖掘野外用戶-聊天機器人互動,發現5.7K個獨特的監獄越獄策略集群,然後組合多個策略以系統性地探索新型越獄方法。與以往通過招募人工工作者、基於梯度的優化或LLM的迭代修訂進行紅隊作業相比,我們的工作從未被特別指示來破壞系統的聊天機器人用戶中調查越獄。WildTeaming揭示了前沿LLM的先前未識別的漏洞,導致與最先進的越獄方法相比,敵對攻擊的多樣性和成功率提高了4.6倍。 雖然存在許多用於越獄評估的數據集,但很少有用於越獄訓練的開源數據集,因為即使模型權重是公開的,安全訓練數據也是封閉的。通過WildTeaming,我們創建了WildJailbreak,一個大規模的開源合成安全數據集,包含262K個基本(直接請求)和敵對(複雜越獄)提示-回應對。為了減輕誇張的安全行為,WildJailbreak提供兩種對比類型的查詢:1)有害查詢(基本和敵對)和2)類似有害查詢形式但不包含任何危害的良性查詢。由於WildJailbreak大幅提升了現有安全資源的質量和規模,它獨特地使我們能夠檢驗數據的規模效應以及在安全訓練期間數據屬性和模型能力之間的相互作用。通過廣泛實驗,我們確定了實現安全行為理想平衡的訓練特性:適當的保護而不過度拒絕,有效處理基本和敵對查詢,以及最小化或完全消除一般能力的降低。WildJailbreak的所有組件都有助於實現模型平衡的安全行為。
最近,在各種領域中,從生物技術到自動化金融系統,都開始廣泛應用深度神經策略。然而,利用深度神經網絡來近似值函數引發了對決策邊界穩定性的擔憂,特別是關於政策決策對不可辨識、非穩健特徵的敏感性,這是由於高度非凸和複雜的深度神經流形。這些擔憂構成了理解深度神經策略所做推理及其基本限制的障礙。因此,發展旨在理解神經網絡策略學習表示中敏感性的技術至關重要。為了實現這一目標,我們引入了一種在時間和空間上系統分析深度神經策略決策邊界中不穩定方向的理論基礎方法。通過在Arcade Learning Environment (ALE)中的實驗,我們展示了我們的技術在識別相關不穩定方向和衡量樣本變化如何重塑神經策略景觀中敏感方向集合方面的有效性。最重要的是,我們證明了最先進的穩健訓練技術在時間上產生了截然不同的不穩定方向學習,與標準訓練相比,這些方向在時間上的振盪明顯更大。我們相信我們的結果揭示了強化學習策略所做決策過程的基本特性,並有助於構建可靠且穩健的深度神經策略。
最近交錯式大型多模型(LMMs)在少樣本學習中的成功表明,在具有許多範例的情境學習(ICL)可能對於學習新任務是有前景的。然而,這種多樣本多模式ICL設置存在一個關鍵問題:它在預訓練時設定的模型上下文長度基本上是有限的。這個問題在多模式領域尤為突出,該領域處理文本和圖像,需要額外的標記。這促使了需要一種多模式方法,將許多樣本壓縮成較少的標記而無需微調。在這項工作中,我們通過利用多模式任務向量(MTV)實現了LMMs執行多模式、多樣本情境學習,這些MTV是在模型的注意力頭中壓縮的情境範例的緊湊隱式表示。具體來說,我們首先證明了LMMs中存在這樣的MTV,然後利用這些提取的MTV來實現各種視覺和語言任務的多樣本情境學習。我們的實驗表明,MTV可以隨著壓縮樣本數量的增加而提高性能,並且可以推廣到類似的跨領域任務,而無需進行額外的上下文長度進行推斷。
大型語言模型(LLM)服務已從無狀態轉變為有狀態系統,利用技術如上下文緩存和解聚推理。這些優化擴展了 KV 緩存的壽命和範圍,需要一種新的架構方法。我們提出了 MemServe,一個統一的系統,整合了跨請求和內請求優化。MemServe 引入了 MemPool,一個管理分佈式內存和 KV 緩存的彈性內存池。使用 MemPool APIs,MemServe 首次將上下文緩存與解聚推理結合起來,並由全局調度程序支持,通過全局提示樹為基礎的本地性感知策略增強緩存重用。測試顯示,MemServe 顯著改善了作業完成時間和首次回應時間。