每日精選AI研究論文及翻譯
後訓練量化是解決LLM推論中與記憶相關的瓶頸的主要方法,但不幸的是,在4位元以下的精度下,它會遭受顯著的性能下降。另一種方法涉及直接在低位元寬度(例如,二進制或三進制模型)上訓練壓縮模型。然而,這些模型的性能、訓練動態和擴展趨勢尚未被很好地理解。為了解決這個問題,我們訓練並公開發布了Spectra LLM套件,包括54個語言模型,參數範圍從9900萬到39億,訓練了3000億標記。Spectra包括FloatLMs、後訓練量化的QuantLMs(3、4、6和8位元)以及三進制LLMs(TriLMs)-我們改進的三進制語言建模架構,明顯優於先前提出的相同大小(位元)的三進制模型,與規模相符的半精度模型。例如,TriLM 39億比半精度FloatLM 8300萬(位元)更小,但在常識推理和知識基準上與半精度FloatLM 39億相匹配。然而,TriLM 39億也像FloatLM 39億一樣具有毒性和刻板印象,後者是其6倍大小。此外,TriLM 39億在驗證分割和基於網路的語料庫的困惑度方面落後於FloatLM,但在Lambada和PennTreeBank等較少嘈雜的數據集上表現更好。 為了增進對低位元寬度模型的理解,我們將釋出Spectra套件的500多個中間檢查點,網址為https://github.com/NolanoOrg/SpectraSuite。
我們介紹了GoldFinch,一種混合線性注意力/Transformer序列模型,採用一種新技術來高效生成高度壓縮且可重複使用的KV-Cache,其時間和空間複雜度均與序列長度成線性關係。GoldFinch將我們的新GOLD Transformer堆疊在增強版本的Finch(RWKV-6)架構之上。我們訓練了高達15億參數的Finch、Llama和GoldFinch架構的模型,發現相對於Finch和Llama,建模性能顯著提高。我們的緩存大小節省隨著模型層數的增加呈線性增長,對於常見大小,比傳統Transformer緩存小756-2550倍,即使在有限硬件上也能推斷極大的上下文長度。儘管自回歸生成每個標記的時間複雜度為O(n),因為注意力,但由於使用循環神經網絡(RNN)生成此緩存的整個初始狀態的預填充計算每個標記僅需O(1)時間。我們根據Apache 2.0許可證釋放我們訓練好的權重和訓練代碼供社區使用。
LLM代理在各種應用中展現出卓越的表現,主要是由於它們在推理、利用外部知識和工具、調用API以及執行與環境互動的動作方面具有先進的能力。目前的代理通常使用記憶模組或檢索增強生成(RAG)機制,從知識庫中檢索過去的知識和具有相似嵌入的實例,以指導任務規劃和執行。然而,對未經驗證的知識庫的依賴引發了對其安全性和可信度的重大擔憂。為了揭示這些弱點,我們提出了一種新穎的紅隊測試方法AgentPoison,這是針對通用和基於RAG的LLM代理的首個後門攻擊,通過對其長期記憶或RAG知識庫進行毒害。具體而言,我們將觸發生成過程形成為受限優化,通過將觸發的實例映射到唯一的嵌入空間來優化後門觸發器,以確保每當用戶指令包含優化後門觸發器時,惡意示範將以高概率從被毒害的記憶或知識庫中檢索。與此同時,不帶觸發器的良性指令仍將保持正常性能。與傳統的後門攻擊不同,AgentPoison無需進行額外的模型訓練或微調,並且優化後門觸發器具有出色的可轉移性、上下文連貫性和隱蔽性。大量實驗證明了AgentPoison在攻擊三種類型的現實世界LLM代理方面的有效性:基於RAG的自駕車代理、知識密集型QA代理和醫療保健EHRAgent。在每個代理上,AgentPoison實現了高於80%的平均攻擊成功率,對良性性能的影響極小(不到1%),毒害率低於0.1%。
多模式大型語言模型(MLLMs)在一般視覺和語言理解方面展示了令人期待的進展。然而,使用MLLMs表示多模式信息仍然是一個未被廣泛探索的領域。在這項工作中,我們引入了一個新的框架,名為E5-V,旨在適應MLLMs以實現通用多模式嵌入。我們的研究結果突顯了MLLMs在表示多模式輸入方面相對於先前方法的重要潛力。通過利用MLLMs與提示語,E5-V有效地彌合了不同類型輸入之間的模態差距,在多模式嵌入方面表現出強大的性能,即使在沒有進行微調的情況下也是如此。我們提出了一種E5-V的單模式訓練方法,其中模型僅在文本對上進行訓練。這種方法相對於傳統的圖像-文本對多模式訓練,顯示出明顯的改進,同時將訓練成本降低了約95%。此外,這種方法消除了昂貴的多模式訓練數據收集的需求。在四種任務中進行的大量實驗證明了E5-V的有效性。作為通用多模式模型,E5-V不僅實現了,而且通常超越了每個任務的最新性能,儘管它是在單一模式上進行訓練的。
大型基礎模型的進步需要廣泛覆蓋、低成本和零污染的基準。儘管對語言模型評估進行了持續探索,但對大型多模態模型(LMMs)的評估進行了全面研究仍然有限。在這項工作中,我們介紹了LMMS-EVAL,一個統一標準的多模態基準框架,包含50多個任務和10多個模型,以促透明和可重現的評估。儘管LMMS-EVAL提供了全面的覆蓋範圍,但我們發現它在實現低成本和零污染方面仍有不足。為了應對這一評估三難問題,我們進一步引入了LMMS-EVAL LITE,一個強調覆蓋範圍和效率的精簡評估工具包。此外,我們提出了Multimodal LIVEBENCH,利用不斷更新的新聞和在線論壇來評估模型在野外的泛化能力,具有低成本和零污染的評估方法。總之,我們的工作強調考慮評估三難問題的重要性,並提供實際解決方案來平衡評估大型多模態模型的取捨,為更有效和可靠地評估LMMs的基準鋪平道路。我們將我們的代碼庫開源,並在https://github.com/EvolvingLMMs-Lab/lmms-eval 和 https://huggingface.co/spaces/lmms-lab/LiveBench 上維護LIVEBENCH的排行榜。
隨著大型語言模型(LLMs)在語言理解和生成方面取得顯著進展,其訓練效率已成為一個關鍵問題。傳統上,LLMs 被訓練來預測序列中的下一個標記。儘管標記級別的訓練取得了成功,但由於需要處理大量標記,它面臨著相當大的計算成本。為了緩解這個問題,本文引入了針對LLMs的補丁級別訓練,通過將多個標記壓縮為單個補丁來減少序列長度。在補丁級別訓練期間,我們將輸入語言模型較短的補丁序列,並訓練它來預測下一個補丁,從而以顯著降低的計算成本處理大部分訓練數據。隨後,模型將在剩餘的訓練數據上繼續進行標記級別訓練,以與推理模式保持一致。對各種模型(370M-2.7B參數)的實驗表明,補丁級別訓練可以將整體計算成本降低到0.5倍,而與標記級別訓練相比,並不會影響模型性能。原始碼:https://github.com/shaochenze/PatchTrain。
現代文本到視頻合成模型展示了從文本描述中生成複雜視頻的連貫、逼真的能力。然而,大多數現有模型缺乏對攝影機運動的精細控制,這對於與內容創作、視覺效果和3D視覺相關的下游應用至關重要。最近,新方法展示了生成具有可控攝影機姿勢的視頻的能力,這些技術利用了事先訓練的基於U-Net的擴散模型,明確地解開了空間和時間生成。然而,目前還沒有現有方法能夠為處理空間和時間信息的新基於Transformer的視頻擴散模型實現攝影機控制。在這裡,我們提出利用類似ControlNet的條件機制來馴服視頻Transformer,以實現3D攝影機控制,該機制包含基於Plucker坐標的時空攝影機嵌入。該方法在對RealEstate10K數據集進行微調後展示了可控視頻生成的最新性能。據我們所知,我們的工作是第一個為基於Transformer的視頻擴散模型實現攝影機控制的研究。
最新的進展通過使用潛在擴散模型進行局部服裝修補,實現了逼真的虛擬試穿(VTON),顯著提升了消費者的網購體驗。然而,現有的VTON技術忽略了商家全面展示服裝的需求,包括對服裝、可選臉部、姿勢和場景的靈活控制。為解決這一問題,我們定義了一個虛擬試穿(VD)任務,旨在生成帶有固定服裝和可選條件的可自由編輯人類圖像。同時,我們設計了一個全面的親和度指標指數(CAMI)來評估生成圖像與參考服裝之間的一致性。然後,我們提出了IMAGDressing-v1,該模型融合了從性特徵和VAE的紋理特徵的服裝UNet。我們提出了一個混合注意力模塊,包括凍結的自注意力和可訓練的交叉注意力,將服裝UNet中的服裝特徵整合到凍結去噪UNet中,確保用戶能夠通過文本控制不同場景。IMAGDressing-v1可以與其他擴展插件結合,例如ControlNet和IP-Adapter,以增強生成圖像的多樣性和可控性。此外,為解決數據不足的問題,我們發布了互動式服裝配對(IGPair)數據集,包含超過30萬對服裝和穿著圖像,並建立了一個數據組裝的標準流程。大量實驗表明,我們的IMAGDressing-v1在各種受控條件下實現了最先進的人類圖像合成性能。代碼和模型將在https://github.com/muzishen/IMAGDressing 上提供。
目前大多數基於LLM的視頻理解模型可以在幾分鐘內處理視頻。然而,它們在處理長視頻時會遇到困難,原因在於"噪音和冗余"以及"內存和計算"等挑戰。本文介紹了Goldfish,這是一種專為理解任意長度視頻而設計的方法。我們還引入了TVQA-long基準測試,專門用於評估模型在理解具有視覺和文本內容問題的長視頻方面的能力。Goldfish通過一種高效的檢索機制應對這些挑戰,該機制首先收集與指示相關的前k個視頻片段,然後提供所需的回應。這種檢索機制的設計使Goldfish能夠高效處理任意長的視頻序列,從而促進其在電影或電視劇等情境中的應用。為了促進檢索過程,我們開發了MiniGPT4-Video,用於為視頻片段生成詳細描述。為了應對長視頻評估基準的稀缺性,我們通過匯總整個集數的問題,將TVQA短視頻基準進行了擴展內容分析,從而將評估從部分轉變為完整集數理解。我們在TVQA-long基準測試中實現了41.78%的準確率,超過先前方法14.94%。我們的MiniGPT4-Video在短視頻理解方面也表現出色,在MSVD、MSRVTT、TGIF和TVQA短視頻基準測試中分別超過現有最先進方法3.23%、2.03%、16.5%和23.59%。這些結果表明,我們的模型在長短視頻理解方面取得了顯著進步。我們的模型和代碼已公開在以下網址提供:https://vision-cair.github.io/Goldfish_website/
複雜的推理是大型語言模型(LLMs)展示出的令人印象深刻的能力。大多數LLMs擅長於演繹推理,例如思維鏈條提示或迭代工具使用,以逐步解決具有挑戰性的任務。在本文中,我們希望專注於評估和教導LLMs進行歸納推理,即,LLMs應該通過觀察示例或序列轉換來推斷潛在規則。然而,收集大規模和多樣化的人類生成的歸納數據具有挑戰性。我們專注於代碼領域中的數據合成,並通過利用程序的表達性和正確性提出了一個Case2Code任務。具體來說,我們收集了一組多樣化的可執行程序,為每個程序合成輸入輸出轉換,並強迫LLMs根據合成的I/O案例推斷潛在的代碼實現。我們首先評估了代表性的LLMs在合成的Case2Code任務上的表現,並展示了Case-to-code歸納對LLMs來說是具有挑戰性的。然後,我們合成了大規模的Case2Code訓練樣本,以訓練LLMs進行歸納推理。實驗結果表明,這種歸納訓練不僅有助於在分佈上的Case2Code表現,還增強了經過訓練的LLMs的各種編碼能力,展示了通過合成數據學習歸納推理的巨大潛力。
大多數音樂生成模型使用文本或參數條件(例如節奏、和諧、音樂風格),我們提議使用音頻輸入對語言模型進行條件設置的音樂生成系統。我們的探索涉及兩種不同的策略。第一種策略稱為文本反轉,利用預先訓練的文本到音樂模型將音頻輸入映射到文本嵌入空間中相應的“虛擬詞”。對於第二個模型,我們從頭開始訓練一個音樂語言模型,同時配合一個文本條件器和一個量化音頻特徵提取器。在推理時,我們可以混合文本和音頻條件,並通過一種新的雙分類器自由引導方法來平衡它們。我們進行了自動化和人類研究,驗證了我們的方法。我們將釋出代碼,並在https://musicgenstyle.github.io 上提供音樂樣本,以展示我們模型的質量。
從性野外圖像集合中的新視角合成仍然是一項重要且具挑戰性的任務,這是由於光度變化和瞬時遮擋物使準確場景重建變得複雜。先前的方法通過在神經輻射場(NeRFs)中集成每幅圖像外觀特徵嵌入來應對這些問題。儘管3D高斯飛濺(3DGS)提供更快的訓練和實時渲染,但要將其適應於非受限制的圖像集合是非常困難的,這是由於架構差異顯著。在本文中,我們介紹了Splatfacto-W,一種方法,它將每個高斯神經顏色特徵和每幅圖像外觀嵌入集成到光柵化過程中,並使用基於球面調和的背景模型來表示不同的光度外觀並更好地描述背景。我們的關鍵貢獻包括潛在外觀建模、高效的瞬時物體處理以及精確的背景建模。Splatfacto-W在野外情境中提供了高質量、實時的新視角合成,改善了場景一致性。我們的方法將峰值信噪比(PSNR)平均提高了5.3 dB,比3DGS提高了150倍的訓練速度,並實現了與3DGS相似的渲染速度。額外的視頻結果和代碼已集成到Nerfstudio中,可在https://kevinxu02.github.io/splatfactow/獲得。
在充滿雜亂環境中的機器人抓取仍然是一個重大挑戰,這是由於遮擋和複雜的物體排列所導致的。我們開發了ThinkGrasp,這是一個即插即用的視覺語言抓取系統,利用GPT-4o的先進上下文推理技術來制定應對重度雜亂環境的抓取策略。ThinkGrasp能夠有效識別並生成目標物體的抓取姿勢,即使它們被嚴重遮擋或幾乎看不見,也能透過目標導向語言來引導清除遮擋物體。這種方法逐步揭示目標物體,最終以少數步驟和高成功率抓取它。在模擬和實際實驗中,ThinkGrasp實現了高成功率,並在重度雜亂環境或具有多樣未知物體的情況下顯著優於最先進的方法,展現出強大的泛化能力。
圖形使用者介面(GUI)是用戶與移動應用程序互動的方式。為確保其正常運作,測試工程師必須確保其按照測試要求正常運作,這些要求通常以自然語言書寫。儘管廣泛採用手動測試和基於腳本的方法是有效的,但由於現代移動應用程序中 GUI 頁面眾多且迭代速度快,因此需要大量努力。本文介紹了 AUITestAgent,這是第一個自動化、以自然語言驅動的 GUI 測試工具,適用於移動應用程序,能夠完全自動化 GUI 互動和功能驗證的整個過程。由於測試要求通常包含互動命令和驗證標準,AUITestAgent 可以通過動態組織代理從測試要求中提取 GUI 互動。然後,AUITestAgent採用多維數據提取策略從互動跟踪中檢索與測試要求相關的數據並執行驗證。在定制基準測試上的實驗表明,AUITestAgent 在生成的 GUI 互動質量方面優於現有工具,並實現了 94% 的驗證準確度。此外,在美團的現場部署中,AUITestAgent 的實際可用性得到展示,它在兩個月內的 10 次回歸測試中檢測到 4 個新的功能性錯誤。
借助大型語言模型(LLMs)的顯著進展,目前正興起一股潮流,即利用LLMs進行機器人導航後的指導。這種趨勢突顯了LLMs在通用導航推理和多樣語言理解方面的潛力。然而,在整合LLMs進行視覺語言導航(VLN)任務時,觀察到代理性能存在顯著差異,與先前的下游專家模型相比。此外,在這些整合中,語言的固有能力來解釋和促進代理互動中的溝通通常被低估。在這項工作中,我們致力於彌合VLN專用模型和基於LLMs的導航範式之間的差距,同時保持LLMs在生成語言導航推理方面的解釋能力。通過對凍結的LLM中的視覺內容進行對齊,我們涵蓋了LLMs的視覺觀察理解,並利用一種方法來將LLMs和導航策略網絡結合,以進行有效的動作預測和導航推理。我們展示了所提方法的數據效率,消除了基於LM的代理和最先進的VLN專家之間的差距。
儘管大型語言模型(LLMs)在各個領域和任務中展現出令人印象深刻的性能,但它們的安全問題變得日益嚴重。機器遺忘(MU)已經成為一個有前途的解決方案,通過消除不需要的數據對目標模型的影響,而不損害其在其他方面的效用,來應對這些問題。MU通常假設可以完全訪問原始訓練數據以保留效用,但在LLM遺忘中實現這一點是困難的。現有的LLM遺忘方法通常假設可以訪問受不需要的數據遺忘影響最大的數據。然而,這種假設低估了各種LLM能力之間的交織,並忽略了由於各種問題而導致的數據訪問限制。此外,這些LLM遺忘方法並未充分考慮現實場景中不斷出現的遺忘請求。為了克服這些挑戰並實現實用的LLM遺忘,我們提出了O3框架。O3框架包括一個用於測量輸入和遺忘數據之間相似性的「分布之外」(OOD)檢測器,以及一個用於持續遺忘請求數據的正交低秩適配器(LoRA)。OOD檢測器使用新穎的對比熵損失進行訓練,並利用局部-全局層聚合的評分機制。正交LoRA實現了在持續遺忘請求之間的參數解耦。在推論期間,我們的O3框架可以智能地根據OOD檢測器的預測來決定是否以及在多大程度上加載遺忘LoRA。值得注意的是,O3的有效性不依賴任何保留的數據。我們在三個任務和七個數據集上對O3和最先進的LLM遺忘方法進行了廣泛實驗。結果表明,O3在遺忘效果和保留效用之間始終取得最佳平衡,特別是在面對持續遺忘請求時。
基於對話的語言模型旨在提供幫助,但不應該遵循每個使用者的要求。儘管大部分現有工作主要集中在拒絕“不安全”查詢上,但我們認為不遵循的範圍應該擴大。我們引入了一個全面的上下文不遵循分類法,描述模型何時以及如何不應該遵循使用者的要求。我們的分類法涵蓋了廣泛的類別,包括不完整的、不支持的、不確定的和人性化的要求(除了不安全的要求)。為了測試語言模型的不遵循能力,我們使用這個分類法來開發一套包含1000個不遵循提示的新評估套件。我們發現,大多數現有模型在某些先前研究不足的類別中表現出顯著高的遵循率,像是 GPT-4 這樣的模型錯誤地遵循了多達30%的要求。為了解決這些差距,我們探索了不同的訓練策略,使用了一個合成生成的訓練集,其中包含要求和預期的不遵循回應。我們的實驗表明,雖然直接對指令調整模型進行微調可能會導致過度拒絕和一般能力下降,但使用像低秩適配器這樣的參數高效方法有助於在適當的不遵循和其他能力之間取得良好平衡。
語法錯誤檢測(GED)方法在很大程度上依賴於人工標註的錯誤語料庫。然而,在許多資源稀缺的語言中,這些標註是不可用的。本文探討了在這種情況下的GED。利用多語言預訓練語言模型的零-shot跨語言轉移能力,我們使用來自多種語言的數據來訓練模型,以在其他語言中生成合成錯誤。然後使用這些合成錯誤語料庫來訓練GED模型。具體而言,我們提出了一種兩階段微調流程,其中GED模型首先在目標語言的多語言合成數據上進行微調,然後在來自源語言的人工標註GED語料庫上進行微調。這種方法優於當前最先進的無標註GED方法。我們還分析了我們的方法和其他強基準模型產生的錯誤,發現我們的方法產生的錯誤更加多樣且更接近人類錯誤。
影片生成模型(VGMs)已證明具有合成高質量輸出的能力。重要的是要了解它們生成不安全內容的潛力,例如暴力或恐怖影片。在這項研究中,我們提供了對不安全影片生成的全面理解。 首先,為了確認這些模型確實能夠生成不安全影片,我們選擇了從4chan和Lexica收集的不安全內容生成提示,以及三個開源SOTA VGMs來生成不安全影片。在篩選重複內容和生成不佳的內容後,我們從原始5607部影片中創建了一組初步的2112部不安全影片。通過對這些生成的影片進行聚類和主題編碼分析,我們確定了5個不安全影片類別:扭曲/怪異、恐怖、色情、暴力/血腥和政治。在IRB批准的情況下,我們招募了在線參與者來幫助標記生成的影片。根據403名參與者提交的標註,我們從最初的影片集中識別出937部不安全影片。根據標記信息和相應的提示,我們創建了由VGMs生成的第一組不安全影片數據集。 然後,我們研究了防止生成不安全影片的可能防禦機制。現有的圖像生成防禦方法主要集中在過濾輸入提示或輸出結果。我們提出了一種新方法,稱為潛變量防禦(LVD),它在模型的內部抽樣過程中工作。LVD可以在抽樣大量不安全提示時實現0.90的防禦準確度,同時將時間和計算資源減少10倍。