每日精選AI研究論文及翻譯
機器遺忘(MU)對於增強深度學習模型中的隱私和安全性至關重要,特別是在大型多模態語言模型(MLLMs)中,通過刪除特定的私人或危險信息。儘管MU在文本和視覺模態方面取得了顯著進展,但多模態遺忘(MMU)仍然明顯未被充分探索,部分原因是缺乏適合的開源基準。為了解決這個問題,我們介紹了CLEAR,這是一個新的基準,旨在評估MMU方法。CLEAR包含200個虛構個人和3,700張圖像,與相應的問答對相關聯,從而實現跨模態的全面評估。我們評估了10種MU方法,將它們適應到MMU中,並突出了特定於多模態遺忘的新挑戰。我們還展示了對LoRA權重進行簡單的ell_1正則化可以顯著減輕災難性遺忘,保持模型對保留數據的性能。數據集可在以下網址獲取:https://huggingface.co/datasets/therem/CLEAR
涉及表格數據的數據科學任務提出了複雜的挑戰,需要複雜的問題解決方法。我們提出了AutoKaggle,這是一個強大且以用戶為中心的框架,通過協作式多智能體系統協助數據科學家完成日常數據管道。AutoKaggle實現了一個迭代開發過程,結合了代碼執行、調試和全面的單元測試,以確保代碼的正確性和邏輯一致性。該框架提供高度可定製的工作流程,允許用戶在每個階段進行干預,從而將自動化智能與人類專業知識相結合。我們的通用數據科學工具包包括經過驗證的數據清理、特徵工程和建模函數,構成了該解決方案的基礎,通過簡化常見任務來提高生產力。我們選擇了8個Kaggle競賽來模擬現實應用場景中的數據處理工作流程。評估結果表明,AutoKaggle在典型的數據科學管道中實現了0.85的驗證提交率和0.82的綜合得分,充分證明了其在處理複雜數據科學任務方面的有效性和實用性。
社會關係推理旨在從圖像中識別關係類別,如朋友、配偶和同事。儘管當前方法採用訓練專用網絡的範式,端對端使用標記的圖像數據,但在泛化能力和可解釋性方面存在限制。為了解決這些問題,我們首先提出了一個簡單而精心設計的框架,名為「SocialGPT」,該框架結合了視覺基礎模型(VFMs)的感知能力和大型語言模型(LLMs)的推理能力,並在模塊化框架中提供了社會關係識別的強大基線。具體而言,我們指導VFMs將圖像內容轉化為文本社會故事,然後利用LLMs進行基於文本的推理。SocialGPT引入了系統化的設計原則,分別適應VFMs和LLMs並彌合它們之間的差距。在沒有額外模型訓練的情況下,在兩個數據庫上實現了具有競爭力的零樣本結果,同時提供可解釋的答案,因為LLMs可以為決策生成基於語言的解釋。在推理階段對LLMs進行手動提示設計過程繁瑣,需要一種自動化提示優化方法。由於我們基本上將視覺分類任務轉換為LLMs的生成任務,自動提示優化遇到獨特的長提示優化問題。為了解決這個問題,我們進一步提出了貪婪分段提示優化(GSPO),通過利用段級梯度信息執行貪婪搜索。實驗結果表明,GSPO顯著改善了性能,我們的方法還可以推廣應用於不同的圖像風格。代碼可在https://github.com/Mengzibin/SocialGPT找到。
數學推理是大型語言模型(LLMs)的一項關鍵能力,然而生成詳細和準確的推理蹤跡仍然是一個重大挑戰。本文介紹了一種新方法,使用在線學習流來產生LLM微調的高質量推理蹤跡。我們的方法採用增量輸出生成流,其中組件LLMs通過迭代通信共同構建解決方案。我們使用在線直接偏好優化(DPO)學習與展開來訓練流,為每個訓練示例生成DPO對並實時更新模型。我們直接比較了我們方法生成的推理蹤跡質量與通過直接模型推理產生的蹤跡質量,展示了我們方法在改善LLM在數學推理任務中表現方面的有效性。
大型語言和多模型模型的快速發展已經引起了對使用專有模型(如GPT-4o)來開發能夠處理像網頁導航這樣的現實場景的自主代理的巨大興趣。儘管最近的開源努力已經試圖讓代理具備探索環境並隨著時間不斷改進的能力,但它們正在建立僅在合成環境中具有明確定義獎勵信號的僅文本代理。這樣的代理很難推廣到需要多模態感知能力並且缺乏基本真實信號的現實設置。在本文中,我們介紹了一個旨在促進開發能夠自主進行現實世界探索並改進自身的多模態網頁代理的開源框架。我們首先通過模仿學習來訓練基本模型以獲得基本能力。然後讓代理探索開放網頁並收集其軌跡的反饋。之後,它通過從另一個通用模型判斷的表現良好的軌跡中學習進一步改進其策略。這種探索-反饋-優化循環可以持續進行多個迭代。實驗結果表明,我們的網頁代理在每次迭代後成功改進自身,展現出在多個測試集上的強大性能。
大型語言模型(LLMs)展現出在程式碼生成方面的卓越能力,在HumanEval和MBPP中解決Python編碼問題的pass@1率超過90%。這種高準確性引發了一個問題:LLMs能否取代人類程式設計師?現有的手工製作、簡單或單行程式碼生成基準無法回答這個問題,因為它們與真實軟體開發之間存在差距。為了回答這個問題,我們提出了REPOCOD,一個程式碼生成基準,包含了來自11個熱門真實世界專案的980個問題,其中超過58%的問題需要檔案層級或存儲庫層級的上下文資訊。此外,與現有基準相比,REPOCOD具有最長的平均標準解決方案長度(331.6個標記)和最高的平均圈復雜度(9.00)。在我們對十個LLMs的評估中,沒有一個模型能在REPOCOD上實現超過30%的pass@1,顯示了建立更強大的LLMs的必要性,以幫助開發人員進行真實世界的軟體開發。
強化學習(RL)對於實現複雜機器人操作技能的自主獲取具有巨大潛力,但在現實世界中實現這一潛力一直是一項具有挑戰性的任務。我們提出了一個基於人機互動的視覺強化學習系統,展示了在各種靈巧操作任務上令人印象深刻的表現,包括動態操作、精密組裝和雙臂協調。我們的方法整合了示範和人類校正、高效的RL算法以及其他系統級設計選擇,學習出在僅需1至2.5小時的訓練內實現接近完美成功率和快速週期時間的策略。我們展示了我們的方法在成功率上明顯優於模仿學習基準和先前的RL方法,平均成功率提高了2倍,執行速度快了1.8倍。通過大量實驗和分析,我們提供了有關我們方法有效性的見解,展示了它如何學習出適用於反應性和預測性控制策略的強健、適應性策略。我們的結果表明,RL確實可以在實際訓練時間內直接在現實世界中學習各種複雜的基於視覺的操作策略。我們希望這項工作能激發新一代學習型機器人操作技術的發展,造福於工業應用和研究進展。視頻和代碼可在我們的項目網站https://hil-serl.github.io/ 上找到。
思維鏈(CoT)提示已成為處理大型語言和多模型的廣泛使用策略。儘管已證明 CoT 可改善許多任務的表現,但確定其有效性的設置仍需持續努力。特別是,在哪些設置中 CoT 會系統地降低模型性能仍是一個未解之謎。本文旨在從性能降低的任務特徵中識別 CoT 的案例,靈感來自認知心理學,觀察在這些案例中(i)口頭思考或深思熟慮損害人類表現,以及(ii)管理人類表現的限制是否適用於語言模型。這三種情況是隱式統計學習、視覺識別和包含異常模式的分類。在跨越這三種設置的廣泛實驗中,我們發現一系列最先進模型在推理時間推理相對於零猜測對照組時表現顯著下降(例如,與 GPT-4o 相比,OpenAI o1-preview 的絕對準確率下降了多達 36.3%)。我們還確定了三個滿足條件(i)但不滿足條件(ii)的任務,發現在這些任務中口頭思考會降低人類表現,但 CoT 會保持或提高模型性能。總的來說,我們的結果顯示,儘管模型的認知過程與人類的認知過程之間沒有確切的平行關係,但考慮思考對人類表現產生負面後果的情況可以幫助我們識別對模型產生負面影響的設置。通過將人類深思熟慮的文獻與 CoT 的評估相連結,我們提供了一種新工具,可用於理解提示選擇和推理時間推理的影響。
我們研究了視覺語言模型(VLMs)的內部表示以及它們如何編碼任務表示。我們考慮通過示例或指令來指定的任務,使用文字或圖像輸入。令人驚訝的是,我們發現概念上相似的任務被映射到相似的任務向量表示,無論它們如何被指定。我們的研究結果表明,為了輸出答案,VLMs中的標記經歷三個不同階段:輸入、任務和答案,這個過程在不同的模態和規格下是一致的。我們在VLMs中識別的任務向量足夠通用,可以在一種模態(例如文本)中推導出,並轉移到另一種模態(例如圖像)。此外,我們發現將示例和基於指令的任務向量組合可以產生更好的任務表示。綜上所述,這些見解揭示了VLMs的潛在機制,特別是它們在不同模態和任務規格之間以共享方式表示任務的能力。專案頁面:https://task-vectors-are-cross-modal.github.io。
隨著長內容大型語言模型(LLMs)的廣泛部署,對高通量推論的有效支持需求日益增加。然而,隨著序列長度擴展,關鍵-值(KV)快取的擴展導致記憶體佔用增加,並且在為每個標記生成時需要訪問它,這都導致在為長內容LLMs提供服務時通量降低。雖然提出了各種動態稀疏注意力方法以加快推論速度同時保持生成質量,但它們要麼無法充分減少GPU記憶體消耗,要麼通過將KV快取卸載到CPU而引入顯著的解碼延遲。我們提出了ShadowKV,一個高通量長內容LLM推論系統,該系統存儲低秩鍵快取並卸載值快取,以減少較大批次大小和較長序列的記憶體佔用。為了最小化解碼延遲,ShadowKV採用了一種準確的KV選擇策略,可以即時重建最小稀疏KV對。通過在一系列基準測試中評估ShadowKV,包括RULER、LongBench和Needle In A Haystack,以及像Llama-3.1-8B、Llama-3-8B-1M、GLM-4-9B-1M、Yi-9B-200K、Phi-3-Mini-128K和Qwen2-7B-128K等模型,我們證明它可以支持高達6倍的較大批次大小,並在A100 GPU上將通量提高高達3.04倍,而不會犧牲準確性,甚至在假設無限GPU記憶體的情況下,也能超越無限批次大小下可實現的性能。代碼可在https://github.com/bytedance/ShadowKV 上找到。
視覺表示的預訓練已增強機器人學習的效率。由於缺乏大規模領域內的機器人數據集,先前的研究利用野外人類影片來預先訓練機器人的視覺表示。儘管它們取得了令人期待的結果,但從人類影片中獲得的表示不可避免地會受到分布變化的影響,並且缺乏對任務完成至關重要的動態信息。我們首先評估各種預先訓練的表示,以其與下游機器人操作任務(即操作中心性)的相關性。有趣的是,我們發現“操作中心性”是應用於下游任務時成功率的一個強有力指標。基於這些發現,我們提出了操作中心表示(MCR),這是一個基礎表示學習框架,捕獲視覺特徵和操作任務的動態信息,如動作和操縱感知,以提高操作中心性。具體而言,我們在DROID機器人數據集上對視覺編碼器進行預訓練,並利用與運動相關的數據,如機器人的操縱感知狀態和動作。我們引入了一種新的對比損失,將視覺觀察與機器人的操縱感知狀態-動作動態對齊,結合類似行為克隆(BC)的演員損失,在預訓練期間預測動作,以及時間對比損失。在20個任務的4個模擬領域中的實證結果證實,MCR的表現優於最強基線方法14.8%。此外,MCR通過76.9%提高了UR5e機械臂在3個現實任務上的數據高效學習性能。項目網站:https://robots-pretrain-robots.github.io/。
在沒有相關監督的情況下,建立有效的密集檢索系統仍然困難。最近的研究試圖克服這一挑戰,方法是利用大型語言模型(LLM)生成假設文件,以尋找最接近的真實文件。然而,這種方法僅依賴LLM具有與查詢相關的領域特定知識,這可能並不實際。此外,生成假設文件可能效率低下,因為它需要LLM為每個查詢生成大量標記。為了應對這些挑戰,我們引入了來自相關反饋的真實文件嵌入(ReDE-RF)。受到相關反饋的啟發,ReDE-RF提議將假設文件生成重新定義為一個相關性估計任務,使用LLM選擇應該用於最近鄰搜索的文件。通過這種重新定義,LLM不再需要領域特定知識,只需要判斷什麼是相關的。此外,相關性估計只需要LLM輸出單個標記,從而提高搜索延遲。我們的實驗表明,ReDE-RF在廣泛的低資源檢索數據集上始終優於最先進的零樣本密集檢索方法,同時在每個查詢的延遲方面也取得了顯著改進。
離線配對偏好優化演算法已成為微調偏好數據的流行方法,勝過傳統監督式微調在各種任務中的表現。然而,傳統實作通常涉及冗餘計算,尤其是對於具有長共享提示的任務。我們引入了前綴共享以進行偏好微調,這是一種新穎的技術,將所選和被拒絕的回應作為具有共享前綴的一個序列來處理。為了防止跨回應污染,我們使用自定義的區塊稀疏注意力遮罩。我們的方法在流行的DPO數據集上實現了1.1-1.5倍的訓練吞吐量提升,而不會對收斂產生任何影響。當與序列打包結合時,我們觀察到持續的1.3-1.6倍加速,甚至有助於具有較短序列長度的數據集。雖然我們專注於直接偏好優化(DPO),但我們的方法適用於其他配對偏好微調方法。通過增強計算效率,我們的工作有助於使基於偏好的微調更易於應用於更廣泛的應用和模型尺寸。我們在https://github.com/frankxwang/dpo-prefix-sharing 開源我們的代碼。
我們研究在檢索任務中,是否在嵌入模型中使用廣泛應用於僅解碼器語言模型(LLMs)中的上下文示例能夠改善性能。與LLMs不同,單純地在推論時將上下文示例(查詢-文檔對)附加到目標查詢前並不能直接奏效。我們提出了一種簡單方法來使檢索器能夠使用上下文示例。我們的方法RARe,通過微調預訓練模型,使用與目標查詢語義相似的上下文示例。這可以應用於適應各種基礎架構(即僅解碼器語言模型、檢索器模型),在各種開放域檢索數據集(BeIR、RAR-b)中穩定實現高達+2.72% nDCG的性能增益。特別是,我們發現RARe展現出比使用沒有上下文示例的查詢的模型更強的跨域泛化能力,類似於LLMs中的上下文學習所見。我們進一步對上下文示例擴充的設計選擇進行分析,為未來在這一領域的工作奠定基礎。
大型語言模型(LLMs)容易記憶訓練數據,引發對於可能提取敏感信息的擔憂。目前用於衡量LLMs記憶率的方法,主要是可發現提取(Carlini等,2022),依賴單序列貪婪抽樣,可能低估了記憶的真實程度。本文引入了可發現提取的概率放鬆,量化在生成樣本集合中提取目標序列的概率,考慮各種抽樣方案和多次嘗試。這種方法通過考慮LLMs的概率性質和用戶互動模式,解決了通過可發現提取報告記憶率的限制。我們的實驗表明,這種概率度量可以揭示比通過可發現提取發現的記憶率更高的情況。我們進一步研究了不同抽樣方案對可提取性的影響,提供了對LLM記憶和相關風險的更全面和現實的評估。我們的貢獻包括一個新的概率性記憶定義,其有效性的實證證據,以及在不同模型、大小、抽樣方案和訓練數據重複上的徹底評估。