每日精選AI研究論文及翻譯
本文介紹了UCFE:用戶中心金融專業基準,這是一個創新的框架,旨在評估大型語言模型(LLMs)處理複雜現實世界金融任務的能力。UCFE基準採用混合方法,將人類專家評估與動態、任務特定的互動結合,以模擬不斷演變的金融情景的複雜性。首先,我們進行了一項用戶研究,涉及804名參與者,收集了他們對金融任務的反饋。其次,基於這些反饋,我們創建了我們的數據集,涵蓋了各種用戶意圖和互動。這個數據集作為基準12個LLM服務使用LLM作為評判方法的基礎。我們的結果顯示,基準分數與人類偏好之間存在顯著一致性,皮爾遜相關係數為0.78,證實了UCFE數據集和我們的評估方法的有效性。UCFE基準不僅揭示了LLMs在金融領域的潛力,還提供了一個評估它們性能和用戶滿意度的堅實框架。基準數據集和評估代碼可供使用。
近來,大型語言模型(LLMs)在建立自主代理方面引起了廣泛關注。然而,目前基於LLM的網頁代理在長時間範疇任務中的表現遠非最佳,常常導致錯誤,例如反覆購買不可退款的機票。相較之下,人類能夠避免這種不可逆的錯誤,因為我們對於行動可能帶來的結果(例如損失金錢)有意識,這也被稱為「世界模型」。受此啟發,我們的研究首先進行初步分析,確認目前的LLMs(例如GPT-4o、Claude-3.5-Sonnet等)中缺乏世界模型。接著,我們提出了一種增強世界模型(WMA)的網頁代理,該代理模擬其行動的結果以做出更好的決策。為了克服訓練LLMs作為預測下一觀察的世界模型所面臨的挑戰,例如觀察之間的重複元素和長HTML輸入,我們提出了一種以轉換為焦點的觀察抽象,其中預測目標是自由形式的自然語言描述,專門突顯時間步之間的重要狀態差異。在WebArena和Mind2Web上的實驗表明,我們的世界模型提高了代理的策略選擇,無需額外訓練,並且相較於最近基於樹搜索的代理,我們的代理在成本和時間效率上表現更佳。
視覺語言模型(VLMs)在最近的視覺問答(VQA)基準測試中取得了顯著進展,該測試評估了複雜的視覺-語言推理能力。然而,這些模型是否真的有效呢?在這項研究中,我們展示了VLMs在處理人類可以輕鬆回答的自然圖像和問題時仍然存在困難,我們將其稱為自然對抗樣本。我們還發現使用像CLIP和ChatGPT這樣的現成模型很容易生成這些VQA樣本,這些樣本來自自然圖像-文本語料庫。我們提出了一種半自動化方法來收集一個新的基準測試,NaturalBench,以可靠地評估具有10,000個經人工驗證的VQA樣本的VLMs。至關重要的是,我們採用了以視覺為中心的設計,將每個問題與兩個產生不同答案的圖像配對,防止盲目解決方案在不使用圖像的情況下回答。這使得NaturalBench比以往可以通過常識先驗知識解決的基準測試更具挑戰性。我們在NaturalBench上評估了53個最先進的VLMs,顯示像LLaVA-OneVision、Cambrian-1、Llama3.2-Vision、Molmo、Qwen2-VL甚至GPT-4o這樣的模型在人類表現(超過90%)的50%-70%之後。我們從兩個角度分析了NaturalBench為何困難:(1)組成性:解決NaturalBench需要多樣的視覺-語言技能,包括理解屬性綁定、物體關係以及像邏輯和計數這樣的高級推理。為此,與先前每個樣本使用單個標籤不同,我們為每個NaturalBench樣本標記1到8個技能標籤進行細粒度評估。(2)偏見:NaturalBench暴露了VLMs中的嚴重偏見,因為模型通常無論圖像如何都會選擇相同的答案。最後,我們將我們的基準測試策劃方法應用於各種數據來源,包括長說明(超過100個詞)和中文、印地語等非英語語言,突顯了其對VLMs的動態評估潛力。
最近在文本到圖像(T2I)擴散模型方面的進展使得從文本提示創建高質量圖像成為可能,但它們仍然難以精確控制特定視覺概念的生成。現有方法可以通過從參考圖像學習來複製給定概念,但它們缺乏對概念內個別組件進行精細定制的靈活性。本文介紹了組件可控個性化,這是一項新穎任務,通過允許用戶在個性化視覺概念時重新配置特定組件,從而推動了T2I模型的界限。這個任務特別具有挑戰性,主要有兩個障礙:語義污染,即不需要的視覺元素損壞了個性化概念,以及語義不平衡,導致了對概念和組件的不成比例學習。為了克服這些挑戰,我們設計了MagicTailor,一個創新框架,利用動態遮罩降級(DM-Deg)動態干擾不需要的視覺語義,並利用雙流平衡(DS-Bal)為所需的視覺語義建立平衡學習範式。廣泛的比較、消融和分析表明,MagicTailor不僅在這一具有挑戰性的任務中表現優異,而且對實際應用具有重要潛力,為更加細緻和創造性的圖像生成打開了新途徑。
注意力是現代大型語言模型(LLMs)的基石。然而,其二次複雜度限制了LLMs的效率和可擴展性,特別是對於具有長上下文窗口的模型。解決這一限制的一種有前途的方法是利用注意力中的稀疏性。然而,現有的基於稀疏性的解決方案主要依賴於預定義的模式或經驗法則來近似稀疏性。這種做法無法充分捕捉基於語言任務的注意力稀疏性的動態特性。本文認為,應該學習而不是預定義注意力的稀疏性。為此,我們設計了SeerAttention,一種新的注意力機制,它通過一個可學習的閘門來擴充傳統的注意力,該閘門能夠自適應地選擇注意力圖中的重要區塊,並將其餘區塊視為稀疏。這種區塊級稀疏性有效平衡了準確性和加速度。為了實現對閘門網絡的高效學習,我們開發了一個定制的FlashAttention實現,該實現以最小的開銷提取了注意力圖的區塊級地面真相。SeerAttention不僅適用於後訓練,而且在長上下文微調方面表現優異。我們的結果顯示,在後訓練階段,SeerAttention明顯優於最先進的基於靜態或啟發式的稀疏注意力方法,同時更具通用性和靈活性,以適應不同的上下文長度和稀疏比例。當應用於與YaRN的長上下文微調時,SeerAttention在32k上下文長度下可以實現顯著的90%稀疏比率,並且幾乎沒有困惑度損失,相比FlashAttention-2,加速了5.67倍。
自然是無限解析度的。在這個現實背景下,現有的擴散模型,如擴散Transformer,在處理超出其訓練領域的圖像解析度時常常面臨挑戰。為了解決這一限制,我們將圖像概念化為具有動態尺寸的令牌序列,而不是將圖像視為固定解析度網格的傳統方法。這種觀點使得可以實現一種靈活的訓練策略,能夠在訓練和推斷過程中無縫地適應各種長寬比,從而促進解析度泛化,消除圖像裁剪引入的偏見。基於這一基礎,我們提出了彈性Vision Transformer(FiT),這是一種專門設計用於生成具有不受限制的解析度和長寬比的圖像的Transformer架構。我們進一步將FiT升級為FiTv2,其中包括幾個創新設計,包括Query-Key向量歸一化、AdaLN-LoRA模塊、矯正流調度器和Logit-Normal取樣器。通過精心調整的網絡結構,FiTv2展現出FiT的2倍收斂速度。當結合先進的無需訓練的外推技術時,FiTv2在解析度外推和多樣解析度生成方面展現出卓越的適應性。此外,我們對FiTv2模型的可擴展性進行了探索,發現較大的模型具有更好的計算效率。此外,我們引入了一種高效的後訓練策略,用於適應預訓練模型進行高解析度生成。全面的實驗證明了FiTv2在各種解析度下的出色性能。我們已在https://github.com/whlzy/FiT 上發布了所有代碼和模型,以促進對於任意解析度圖像生成的擴散Transformer模型的探索。
蛋白質是由其氨基酸序列所定義的基本大分子,這些序列決定了它們的三維結構,進而影響所有生物體中的功能。因此,生成式蛋白建模需要一種多模態方法,同時對序列和結構進行建模、理解和生成。然而,現有方法通常使用各自的模型來處理每個模態,限制了它們捕捉序列和結構之間錯綜複雜關係的能力。這導致在需要聯合理解和生成兩種模態的任務中表現不佳。本文介紹了DPLM-2,這是一個多模態蛋白基礎模型,擴展了離散擴散蛋白語言模型(DPLM),以適應序列和結構。為了使語言模型能夠進行結構學習,3D坐標被轉換為離散標記,使用基於量化的無查找分詞器。通過在實驗和高質量合成結構上進行訓練,DPLM-2學習了序列和結構的聯合分佈,以及它們的邊際和條件分佈。我們還實現了一種有效的預熱策略,以利用大規模演化數據和來自預先訓練的基於序列的蛋白質語言模型的結構歸納偏差之間的聯繫。實證評估表明,DPLM-2可以同時生成高度兼容的氨基酸序列及其對應的3D結構,無需兩階段生成方法。此外,DPLM-2在各種條件生成任務中展現了競爭性表現,包括折疊、逆向折疊和支架搭建,並提供了結構感知表示以進行預測任務。
GPT-4o是一個全方位模型,代表了大型多模態語言模型發展的里程碑。它可以理解視覺、聽覺和文本模態,直接輸出音頻,並支持靈活的雙工互動。來自開源社區的模型通常可以實現GPT-4o的一些功能,如視覺理解和語音聊天。然而,由於多模態數據的複雜性、複雜的模型架構和訓練過程,訓練一個統一的模型來整合所有模態是具有挑戰性的。在本文中,我們介紹了Mini-Omni2,這是一個視覺-音頻助手,能夠對視覺和音頻查詢提供即時端到端語音回應。通過集成預訓練的視覺和聽覺編碼器,Mini-Omni2在個別模態中保持性能。我們提出了一個三階段訓練過程來對齊模態,使語言模型在有限數據集上訓練後能夠處理多模態輸入和輸出。對於互動,我們引入了基於命令的中斷機制,從而實現與用戶更靈活的互動。據我們所知,Mini-Omni2是對GPT-4o最接近的再現之一,具有類似的功能形式,我們希望它能為後續研究提供有價值的見解。
我們介紹了Hybrid Autoregressive Transformer(HART),這是一種自回歸(AR)視覺生成模型,能夠直接生成1024x1024的圖像,與擴散模型在圖像生成質量上相媲美。現有的AR模型面臨著限制,原因是其離散標記器的圖像重建質量較差,並且生成1024像素圖像的訓練成本過高。為應對這些挑戰,我們提出了混合標記器,將自編碼器中的連續潛在變量分解為兩個部分:代表整體圖像的離散標記和代表無法由離散標記表示的剩餘部分的連續標記。離散部分由可擴展分辨率的離散AR模型建模,而連續部分則通過僅具有3700萬參數的輕量級殘差擴散模塊進行學習。與僅具有離散VAR標記器的方法相比,我們的混合方法將MJHQ-30K上的重建FID從2.11提高到0.30,導致生成FID從7.85提高到5.38,改善了31%。HART在FID和CLIP分數上均優於最先進的擴散模型,並具有4.5-7.7倍的更高吞吐量和6.9-13.4倍的更低MACs。我們的代碼在https://github.com/mit-han-lab/hart上開源。
在實踐中,低質量或稀缺的數據對深度神經網絡的訓練構成了重大挑戰。傳統的數據擴增無法提供截然不同的新數據,擴散模型為通過文本引導提示生成高質量和多樣性合成數據打開了一扇新的大門,從而構建自我演進的人工智能。然而,僅依靠文本引導無法控制合成圖像與原始圖像的接近程度,導致超出分布的數據對模型性能有害。為了克服這一限制,我們研究了圖像引導,以實現合成和真實圖像之間的一系列插值。通過更強的圖像引導,生成的圖像與訓練數據相似但難以學習。而通過較弱的圖像引導,合成圖像對模型更容易,但會導致與原始數據之間的分布差距增大。生成的完整數據範譜使我們能夠構建一個新的“擴散課程(DisCL)”。DisCL調整了每個訓練階段的圖像合成引導級別:它識別並專注於模型的困難樣本,評估合成圖像的最有效引導級別以改善困難數據的學習。我們將DisCL應用於兩個具有挑戰性的任務:長尾(LT)分類和從低質量數據中學習。它專注於高質量的低引導圖像,以學習原型特徵作為學習更高引導圖像的熱身,這些圖像可能在多樣性或質量上較弱。大量實驗展示了將DisCL應用於iWildCam數據集時,OOD和ID宏準確度分別提高了2.7%和2.1%。在ImageNet-LT上,DisCL將基礎模型的尾部類別準確度從4.4%提高到23.64%,並使全類別準確度提高了4.02%。
自回歸大型語言模型(LLMs)的快速發展顯著提高了生成文本的質量,這需要可靠的機器生成文本檢測器。大量檢測器和帶有人工智能片段的收集物已經出現,根據這些收集物中的目標指標,一些檢測方法甚至顯示出高達99.9%的識別質量。然而,這些檢測器的質量在實際應用中往往急劇下降,引發一個問題:這些檢測器是否真的非常可靠,還是它們的高基準分數來自於評估數據集的質量不佳?在本文中,我們強調了對於評估生成數據的堅固和優質方法的需求,以確保未來模型的偏見和低泛化能力。我們對專門用於檢測人工智能生成內容的競賽數據集進行了系統性回顧,並提出了評估包含人工智能生成片段的數據集質量的方法。此外,我們討論了使用高質量生成數據來實現兩個目標的可能性:改善檢測模型的訓練以及改善訓練數據集本身。我們的貢獻旨在促進更好地理解人類和機器文本之間的動態,從而最終支持在日益自動化的世界中信息的完整性。
語頭生成旨在從單一肖像和語音音訊創建生動逼真的語頭視頻。儘管在基於擴散的語頭生成方面取得了顯著進展,幾乎所有方法都依賴自回歸策略,這些策略在當前生成步驟之外利用上下文有限,存在誤差累積並且生成速度較慢。為應對這些挑戰,我們提出了DAWN(動態幀頭像與非自回歸擴散),這是一個框架,可以實現動態長度視頻序列的一次生成。具體而言,它由兩個主要組件組成:(1)在潛在運動空間中生成由音頻驅動的整體面部動態,以及(2)由音頻驅動的頭部姿勢和眨眼生成。大量實驗表明,我們的方法生成具有精確唇部運動和自然姿勢/眨眼動作的真實生動視頻。此外,DAWN 具有高生成速度,具有強大的外推能力,確保高質量長視頻的穩定生成。這些結果突顯了DAWN 在語頭視頻生成領域中的重要潛力和影響力。此外,我們希望DAWN 能激發對擴散模型中非自回歸方法的進一步探索。我們的代碼將公開在 https://github.com/Hanbo-Cheng/DAWN-pytorch。
我們介紹了一種名為BiGR的新型條件圖像生成模型,該模型使用緊湊的二進制潛在碼進行生成式訓練,旨在增強生成和表示能力。BiGR是第一個在同一框架內統一生成和區分的條件生成模型。BiGR具有二進制分詞器、遮罩建模機制和二進制轉碼器,用於二進制碼預測。此外,我們引入了一種新穎的熵排序採樣方法,以實現有效的圖像生成。大量實驗驗證了BiGR在生成質量(以FID-50k衡量)和表示能力(通過線性探針準確度證明)方面的優越性能。此外,BiGR展示了在各種視覺任務中的零樣本泛化能力,實現了諸如圖像修補、外部補充、編輯、插值和豐富化等應用,無需進行結構修改。我們的研究結果表明,BiGR有效地統一了生成和區分任務,為該領域的進一步發展鋪平了道路。
人類獲取知識的方式包括觀察外部世界,也包括內省。內省使一個人能夠特權地接觸到自己當前的心智狀態(例如想法和情感),這是外部觀察者無法獲取的。語言模型是否能進行內省?我們將內省定義為獲取不包含在或源自訓練數據中的知識,而是源自內部狀態。這種能力可以增強模型的可解釋性。與費力地分析模型的內部運作不同,我們可以簡單地問模型關於其信念、世界模型和目標。更具推測性的是,一個內省型模型可能會自我報告其是否擁有某些內部狀態,如主觀感受或慾望,這可以告訴我們這些狀態的道德地位。這些自我報告不會完全受模型的訓練數據所支配。 我們通過對語言模型進行微調,使其能夠預測自己在假設情境中的行為特性來研究內省。例如,“給定輸入P,您的輸出會偏向短期還是長期選項?”如果模型M1能夠進行內省,它應該在預測M1的行為方面勝過另一個模型M2,即使M2是基於M1的真實行為進行訓練的。這個想法是,M1能夠特權地接觸到自己的行為傾向,這使得它能夠比M2更好地預測自己(即使M2通常更強大)。 在對GPT-4、GPT-4o和Llama-3模型進行實驗(每個模型都進行了自我預測的微調)後,我們發現模型M1在預測自己方面勝過M2,為內省提供了證據。值得注意的是,即使我們故意修改其真實行為,M1仍然能夠準確預測其行為。然而,儘管我們成功地引出了對簡單任務的內省,但在更複雜的任務或需要超出分布的泛化的任務中,我們並未成功。
我們介紹Shakti,這是一個擁有25億參數的語言模型,專門為資源受限環境(如邊緣裝置,包括智慧手機、可穿戴裝置和物聯網系統)進行了優化。Shakti結合了高性能自然語言處理(NLP)與優化的效率和精確性,使其非常適合於計算資源和記憶體有限的實時人工智慧應用。支援方言語言和特定領域任務,Shakti在醫療保健、金融和客戶服務等行業表現卓越。基準評估顯示,Shakti在維持低延遲和設備效率的同時,與更大的模型競爭力強,使其成為邊緣人工智慧的領先解決方案。
並非所有可學習的參數(例如權重)對神經網絡的決策功能貢獻相同。事實上,有時整個層的參數可以被重置為隨機值,對模型的決策幾乎沒有影響。我們重新審視早期研究,探討架構和任務複雜性如何影響這一現象,並提出問題:這一現象是否也受我們訓練模型的方式影響?我們對多個ImageNet-1k分類模型進行了實驗評估,探索這一問題,保持架構和訓練數據恆定,但變化訓練流程。我們的研究發現顯示,訓練方法強烈影響哪些層對於特定任務的決策功能至關重要。例如,改進的訓練制度和自監督訓練增加了早期層的重要性,同時明顯地未充分利用更深層。相反,諸如對抗訓練等方法呈現相反的趨勢。我們的初步結果擴展了先前的研究發現,提供了對神經網絡內部機制更細緻的理解。 代碼:https://github.com/paulgavrikov/layer_criticality
中華人民共和國是否透過華人散居媒體干預歐洲選舉?這個問題是一個持續進行的研究項目的基礎,該研究探討中華人民共和國對歐洲選舉的敘述如何在華人散居媒體中呈現,以及中華人民共和國新聞媒體操控的目標。為了有效且規模化地研究散居媒體,有必要使用從定量文本分析中衍生的技術,如主題建模。在本文中,我們提出了一個用於研究中國媒體信息動態的流程。首先,我們提出了KeyNMF,一種使用基於轉換器的上下文嵌入模型進行靜態和動態主題建模的新方法。我們提供了基準評估,以證明我們的方法在許多中文數據集和指標上具有競爭力。其次,我們將KeyNMF與現有方法整合,用於描述複雜系統中的信息動態。我們將此流程應用於來自五個新聞網站的數據,重點關注2024年歐洲議會選舉前的時期。我們的方法和結果證明了KeyNMF在研究中國媒體信息動態方面的有效性,為進一步解決更廣泛的研究問題奠定了基礎。
從人類反饋中學習的強化學習(RLHF)已成為語言模型(LM)對齊的主要方法。在其核心,RLHF 使用基於邊界的損失進行偏好優化,僅通過首選和非首選回應之間的差異來指定理想的 LM 行為。在本文中,我們識別了基於邊界方法的一個常見陷阱——對首選和非首選回應上的理想 LM 行為進行不足的具體說明,這導致兩個意外後果隨著邊界的增加而出現:(1)非首選(例如,不安全)回應的概率可能增加,導致潛在的安全對齊失敗。 (2)即使這些回應是理想的,首選回應的概率也可能降低。我們揭示了這些問題行為背後的原因:基於邊界的損失將首選概率的變化與非首選概率的梯度耦合在一起,反之亦然,通常阻止首選概率增加,而非首選概率降低,從而導致兩個概率同步增加或減少。我們將這種效應稱為基於邊界目標固有的梯度纏結。在形式上,我們推導了一般基於邊界對齊目標的條件,其中梯度纏結變得令人擔憂:首選和非首選對數概率的梯度的內積相對於個別梯度範數較大。我們從理論上研究了在對齊語言模型時為什麼這樣的內積可能很大,並在實踐中驗證了我們的發現。我們框架的實證影響擴展到解釋各種偏好優化算法的訓練動態中的重要差異,並提出潛在的算法設計來減輕基於邊界方法的理想 LM 行為不足問題,從而改善語言模型對齊。
大型語言模型(LLMs)容易受到說服,這可能在模型面對對抗性對話者時帶來風險。我們朝著保護模型免受說服的方向邁出第一步,同時主張防禦對抗性(即負面)說服只是問題的一半:模型還應該能夠接受有益的(即正面)說服以改善其答案。我們表明,僅優化模型的一方會導致在另一方面表現不佳。為了平衡正面和負面的說服,我們引入了平衡說服訓練(或PBT),利用多智能體遞迴對話樹來創建數據,並通過偏好優化訓練模型以在適當時接受說服。PBT不斷提高對錯誤信息的抵抗力和對挑戰的韌性,同時在包含正面和負面說服的整體數據上實現最佳總體表現。至關重要的是,我們表明PBT模型在多智能體辯論中是更好的隊友。我們發現,沒有PBT,強弱模型對的表現不穩定,模型呈現答案的順序決定了團隊獲得強模型還是弱模型的表現。PBT帶來更好和更穩定的結果,減少了順序依賴性,強模型始終穩定地提升弱模型。
合成數據已被廣泛用於訓練大型語言模型,但其生成性質不可避免地引入噪音、非信息性和誤導性的學習信號。本文提出了Montessori-Instruct,一個新穎的數據合成框架,該框架調整了教師語言模型的數據合成能力,以適應學生語言模型的學習過程。具體而言,我們利用合成訓練數據點對學生的本地數據影響來表徵學生的學習偏好。然後,我們使用直接偏好優化(DPO)來訓練教師模型,以生成符合學生學習偏好的合成數據。在Alpaca Eval和MT-Bench上使用Llama3-8B-Instruct(教師)和Llama3-8B(學生)進行實驗,結果顯示Montessori-Instruct的性能顯著優於標準合成方法,相對提高了18.35\%和46.24\%。我們的方法還優於由更強大的教師模型GPT-4o合成的數據。進一步的分析確認了教師學習對於生成更具影響力的訓練數據以促進學生改善學習的好處,本地數據影響在準確衡量學生偏好方面的優勢,以及Montessori-Instruct在不同學生模型中的穩健性。我們的代碼和數據已在https://github.com/cxcscmu/Montessori-Instruct 上開源。