每日精選AI研究論文及翻譯
隨著大型語言模型在金融領域中變得日益普遍,迫切需要一種標準化方法來全面評估其性能。然而,現有的金融基準測試往往存在語言和任務範圍有限,以及低質量數據集和不足適應性用於大型語言模型評估等挑戰。為了解決這些限制,我們提出了「金色基準」,這是第一個針對金融語言模型的全面雙語基準測試,涵蓋了來自中文和英文的代表性數據集,涵蓋了八個核心金融自然語言處理任務。通過廣泛的開源數據收集和行業特定需求的開發,這個基準測試包括各種金融任務,旨在全面評估模型的語言理解和生成能力。通過在基準測試上對主要模型進行比較分析,如GPT-4o Llama3、FinGPT和FinMA,我們揭示了它們在處理複雜金融信息方面的優勢和限制。此外,我們開源了Touchstone-GPT,這是通過持續預訓練和金融指導調整訓練的金融語言模型,在雙語基準測試中表現出色,但在特定任務上仍存在限制。這項研究不僅為金融大型語言模型提供了一個實用的評估工具,還指導了未來研究的發展和優化。Golden Touchstone的源代碼和Touchstone-GPT的模型權重已經公開在https://github.com/IDEA-FinAI/Golden-Touchstone,有助於金融語言模型的持續演進,並促進這一關鍵領域的進一步研究。
在語義圖像編輯中,根據文字指示將物件添加到圖像中是一項具有挑戰性的任務,需要在保留原始場景和無縫整合新物件到合適位置之間取得平衡。儘管做出了大量努力,現有模型通常在這種平衡方面存在困難,特別是在複雜場景中尋找添加物件的自然位置。我們介紹了Add-it,這是一種無需訓練的方法,它擴展了擴散模型的注意機制,以整合來自三個關鍵來源的信息:場景圖像、文字提示和生成的圖像本身。我們的加權擴展注意機制保持結構一致性和細節,同時確保自然的物件放置。在沒有任務特定微調的情況下,Add-it在真實和生成的圖像插入基準上實現了最先進的結果,包括我們新建的“添加可負擔基準”用於評估物件放置的合理性,優於監督方法。人類評估顯示,在超過80%的情況下,人們更喜歡使用Add-it,它還在各種自動化指標上展示了改進。
指示引導的圖像編輯方法通過在自動合成或手動標註的圖像編輯對上訓練擴散模型,展現了顯著的潛力。然而,這些方法仍遠遠落後於實際應用。我們確定了導致這一差距的三個主要挑戰。首先,由於存在偏見的合成過程,現有模型的編輯能力有限。其次,這些方法是使用具有大量噪音和瑕疵的數據集進行訓練的。這是由於應用了像 CLIP-score 這樣的簡單過濾方法。第三,所有這些數據集都限制在單一低分辨率和固定長寬比,限制了應對真實世界用例的多功能性。在本文中,我們提出了 \omniedit,這是一個全能編輯器,可以無縫處理七種不同的圖像編輯任務,並支持任何長寬比。我們的貢獻有四個方面:(1) \omniedit 通過利用來自七個不同專業模型的監督進行訓練,以確保任務覆蓋範圍。(2) 我們利用基於大型多模型(如 GPT-4o)提供的分數的重要性抽樣,而不是 CLIP-score,以提高數據質量。(3) 我們提出了一種名為 EditNet 的新編輯架構,極大地提高了編輯成功率。(4) 我們提供了具有不同長寬比的圖像,以確保我們的模型可以處理野外的任何圖像。我們精心編制了一個測試集,其中包含具有不同長寬比的圖像,並附帶各種指示以涵蓋不同任務。自動評估和人工評估均表明,\omniedit 可以顯著優於所有現有模型。我們的代碼、數據集和模型將在以下網址提供:https://tiger-ai-lab.github.io/OmniEdit/
在許多商業和實際應用中,理解並回答文件中的問題的能力可能非常有用。然而,文件通常包含冗長且多樣的多模式內容,如文本、圖表和表格,這對人類來說需要花費大量時間來仔細閱讀。因此,迫切需要開發有效且自動化的方法來幫助人類完成這項任務。在這項工作中,我們介紹了M-LongDoc,這是一個包含851個樣本的基準測試集,以及一個自動化框架來評估大型多模式模型的性能。我們進一步提出了一種基於檢索意識的調整方法,用於高效和有效地閱讀多模式文件。與現有作品相比,我們的基準測試集包含了最近且冗長的文件,有數百頁之多,同時需要開放式解決方案,而不僅僅是提取式答案。據我們所知,我們的訓練框架是第一個直接針對多模式長文檔的檢索設置進行處理的。為了使開源模型能夠進行調整,我們以完全自動的方式構建了一個用於問答任務的訓練語料庫。實驗表明,與基準開源模型相比,我們的調整方法使模型回答的正確性相對提高了4.6%。我們的數據、代碼和模型可在https://multimodal-documents.github.io 上獲得。
為了與大型語言模型(LLMs)的快速發展保持一致,新的LLM評估基準至關重要。在這項工作中,我們提出了中文SimpleQA,這是第一個全面的中文基準,用於評估語言模型回答簡短問題的事實能力。中文SimpleQA主要具有五個特點(即中文、多樣性、高質量、靜態、易於評估)。具體而言,首先,我們聚焦於六個主題的中文語言,涵蓋99個多樣的子主題。其次,我們進行全面的質量控制過程,以確保問題和答案的高質量,參考答案是靜態的,不會隨時間改變。第三,與SimpleQA相似,問題和答案非常簡短,評分過程基於OpenAI API,易於評估。基於中文SimpleQA,我們對現有LLMs的事實能力進行了全面評估。最後,我們希望中文SimpleQA能夠引導開發人員更好地了解其模型的中文事實能力,促進基礎模型的發展。
我們介紹 Edify Image,這是一系列能夠以像素級準確度生成逼真圖像內容的擴散模型。Edify Image 使用級聯像素空間擴散模型,透過一種新穎的拉普拉斯擴散過程進行訓練,該過程會以不同頻率帶的圖像信號以不同速率衰減。Edify Image 支援廣泛的應用,包括文本轉圖像合成、4K 超分辨率、ControlNets、360 HDR 全景生成,以及圖像定製的微調。
圖像浮水印方法並非針對處理小型浮水印區域而設計。這限制了在現實世界情境中應用的可能性,因為圖像的部分可能來自不同來源或已經編輯過。我們引入了一個用於局部圖像浮水印的深度學習模型,名為Watermark Anything Model(WAM)。WAM嵌入器在不可察覺地修改輸入圖像,而提取器將接收到的圖像分割為帶有浮水印和無浮水印的區域,並從被識別為帶有浮水印的區域中恢復一個或多個隱藏訊息。這些模型在低解析度下聯合訓練,並且不受感知約束,然後進行後訓練以實現不可察覺性和多重浮水印。實驗表明,WAM在不可察覺性和穩健性方面與最先進的方法相當競爭,尤其是對抗修補和拼貼,即使在高解析度圖像上也是如此。此外,它還提供了新的功能:WAM能夠在拼貼圖像中定位帶有浮水印的區域,並從多個小區域中提取出不超過圖像表面的10%的獨特32位元訊息,即使對於小型的256x256圖像也是如此。
軟體庫的快速演進對程式碼生成模型構成重大挑戰,這些模型必須適應頻繁的版本更新,同時保持與先前版本的兼容性。現有的程式碼完成基準往往忽略了這種動態方面,而唯一考慮到這一點的基準則依賴於沒有基於執行的評估的靜態程式碼預測任務,這提供了對模型實際可用性的有限觀點。為了填補這一空白,我們引入了 \GitChameleon{},這是一個新穎的、手工編纂的資料集,包含 116 個 Python 程式碼完成問題,每個問題都取決於特定的庫版本,並附帶可執行的單元測試。旨在嚴格評估現代大型語言模型 (LLMs) 生成特定版本程式碼的能力,這些程式碼不僅在語法上正確,而且在執行時也具有功能準確性。我們的全面評估顯示,最先進的 LLMs 在這項任務上遇到困難;例如,GPT-4o 的 pass@10 只有 39.9\%(當提供錯誤反饋時為 43.7\%),突顯了問題的複雜性和目前模型的限制。通過提供一個強調程式庫代碼動態性質的基準,\GitChameleon{} 是推動更具適應性和可靠性的程式碼生成模型發展的關鍵工具。為了進一步探索版本條件下的程式碼生成,我們將我們的程式碼存儲庫公開放在 https://github.com/NizarIslah/GitChameleon。
在大型語言模型(LLMs)領域中,模型準確遵循指示的能力至關重要,因為越來越多的代理和應用程式正在利用LLMs進行構建,其中指示的複雜性正在迅速增加。然而,一方面,複雜指示評估數據是有限的;另一方面,目前沒有專用的算法來提高遵循複雜指示的能力。為此,本文介紹了TRACE,一個用於改進和評估複雜指示遵循能力的基準,包括12萬個訓練數據和1千個評估數據。此外,我們提出了IOPO(輸入-輸出偏好優化)對齊方法,該方法考慮了輸入和輸出偏好對,使LLMs不僅快速與回應偏好對齊,還精心探索指示偏好。對於領域內和領域外數據集的廣泛實驗證實了IOPO的有效性,相對於SFT和DPO,分別在領域內數據上提高了8.15%,2.18%,在領域外數據上分別提高了6.29%,3.13%。
自回歸建模在自然語言處理(NLP)領域取得了巨大成功。最近,自回歸模型在計算機視覺領域嶄露頭角,擅長生成高質量的視覺內容。在NLP中,自回歸模型通常操作於子詞元素上。然而,在計算機視覺中,表示策略可以在不同層次上變化,即像素級、標記級或尺度級,反映了視覺數據的多樣性和階層性,與語言的序列結構相比。本調查全面檢視了應用於視覺的自回歸模型文獻。為了提高不同研究背景的研究人員的可讀性,我們從視覺中的序列表示和建模開始。接下來,我們將視覺自回歸模型的基本框架分為三個一般子類別,包括基於像素、基於標記和基於尺度的模型,根據表示策略。然後,我們探索自回歸模型與其他生成模型之間的相互聯繫。此外,我們對計算機視覺中的自回歸模型進行了多方面的分類,包括圖像生成、視頻生成、3D生成和多模態生成。我們還詳細說明了它們在各種領域中的應用,包括新興領域,如具身人工智能和3D醫學人工智能,涉及約250個相關參考文獻。最後,我們強調了自回歸模型在視覺中面臨的當前挑戰,並提出了潛在的研究方向建議。我們還建立了一個Github存儲庫,以組織本調查中包含的論文,網址為:https://github.com/ChaofanTao/Autoregressive-Models-in-Vision-Survey。
本文探討大型語言模型(LLMs)在戰略決策情境中的合理性,尤其是在博弈理論框架下。我們評估了幾種最先進的LLMs在完全信息和不完全信息博弈的範疇中。我們的研究發現,LLMs經常偏離理性策略,特別是在遊戲複雜度隨著更大的收益矩陣或更深的序列樹而增加時。 為了應對這些限制,我們設計了多個博弈理論工作流程,引導LLMs的推理和決策過程。這些工作流程旨在增強模型計算納什均衡和做出理性選擇的能力,即使在不確定和不完全信息的情況下也是如此。實驗結果表明,採用這些工作流程顯著提高了LLMs在博弈任務中的理性和韌性。具體而言,憑藉這些工作流程,LLMs在識別最佳策略、在談判情境中實現接近最佳的分配以及減少在談判過程中易受剝削方面均有顯著改善。此外,我們探討了元策略考量,即代理是否理性地採用這些工作流程,認識到使用或放棄工作流程本身就構成一個博弈理論問題。 我們的研究有助於更深入地了解LLMs在戰略情境中的決策能力,並提供了通過結構化工作流程增強其理性的見解。這些研究結果對於開發更強大和策略合理的AI代理,能夠在複雜的互動環境中進行導航具有重要意義。支持本研究的代碼和數據可在https://github.com/Wenyueh/game_theory找到。
理解和操控語言模型中的因果生成機制對於控制其行為至關重要。先前的研究主要依賴於技術,例如表示手術,例如模型消融或與特定概念相關聯的線性子空間的操作,以干預這些模型。為了精確了解干預的影響,檢視反事實是有用的,例如,如果一個給定的句子是如何生成的,假設它是由模型在進行特定干預後生成的。我們強調,反事實推理在概念上與干預是有區別的,正如Pearl的因果層次所表述的。基於這一觀察,我們提出了一個框架,將語言模型重新制定為使用Gumbel-max技巧的廣義結構方程模型,以生成真實的字符串反事實。這使我們能夠對原始字符串和由於採樣噪聲的同一實例而產生的反事實的聯合分佈進行建模。我們開發了一種基於事後Gumbel採樣的算法,使我們能夠推斷潛在的噪聲變量並生成觀察字符串的反事實。我們的實驗表明,這種方法產生了有意義的反事實,同時顯示了常用的干預技術具有相當大的不良副作用。
人類動作生成是生成式計算機視覺研究的前沿領域,具有在視頻創建、遊戲開發和機器人操作等方面有潛力的應用。最近的Mamba架構展示了在高效建模長且複雜序列方面的有希望的結果,但仍存在兩個重要挑戰:首先,直接將Mamba應用於延長動作生成是無效的,因為隱式記憶的有限容量導致記憶衰減。其次,與Transformer相比,Mamba在多模態融合方面遇到困難,並且缺乏與文本查詢的對齊,經常混淆方向(左還是右)或省略較長文本查詢的部分。為了應對這些挑戰,我們的論文提出了三個關鍵貢獻:首先,我們引入了KMM,一種新穎的架構,具有關鍵幀遮罩建模,旨在增強Mamba對動作片段中關鍵動作的關注。這種方法解決了記憶衰減問題,並代表了在SSM中定制戰略幀級遮罩的開拓性方法。此外,我們設計了一種對比學習範式,以解決Mamba中的多模態融合問題,並改善動作-文本對齊。最後,我們在主流數據集BABEL上進行了大量實驗,在FID上實現了超過57%的性能提升,並與先前最先進方法相比,參數減少了70%。請參閱項目網站:https://steve-zeyu-zhang.github.io/KMM
安全微調算法通常用於微調語言模型以減少有害輸出,但這些模型實現此目標的確切內部機制仍不清楚。在研究直接偏好優化(DPO)以降低毒性時,目前的解釋聲稱DPO 通過抑制最具毒性的 MLP 神經元來學習一個偏移量,以避免殘留流中的有毒區域。然而,通過切除最具毒性的神經元並應用激活修補,我們發現這種解釋是不完整的。通過將神經元激活變化投影到毒性探針上,我們發現只有 31.8\% 的毒性降低來自抑制的有毒神經元。相反,DPO 通過在多個神經元組中累積效應來降低毒性,既減少了指向有毒方向的寫作,又促進了殘留流中的反毒性。此外,DPO 對神經元激活進行了噪聲調整,許多神經元實際上增加了毒性。這表明 DPO 是一個在對立神經元效應之間取得毒性降低的平衡過程。
大型語言模型(LLMs)在自然語言處理(NLP)任務中取得了顯著成功,並在其他領域(如蛋白質序列生成)中展現了令人期待的成果。然而,用於NLP的LLMs與蛋白質語言模型之間仍存在顯著差異,NLP中的LLMs能夠有效處理多個任務並以較小的尺寸提供,而蛋白質語言模型則常專門為特定任務而設計,並且僅以較大的尺寸存在。在本研究中,我們介紹了兩個小型蛋白質語言模型,基於Llama-3-8B和Phi-3-mini,能夠進行不可控和可控蛋白質生成。對於不可控生成任務,我們的最佳模型實現了平均pLDDT分數為69.75,展示了在生成可行蛋白質結構方面的穩健表現。對於可控生成任務,模型根據提示中指定的屬性生成蛋白質,在這方面,我們實現了顯著的平均TM-Score為0.84,表明與目標蛋白質具有高結構相似性。我們選擇了10個屬性,包括六類酶,以擴展先前蛋白質語言模型的能力。我們的方法利用了低秩適配器(LoRA)技術,將可訓練參數減少到原始模型尺寸的4%,降低了計算要求。通過使用UniRef50數據集的子集和小型模型,我們將整體訓練時間減少了70%,同時不影響性能。值得注意的是,Phi-3-mini將可訓練參數減少了60%,相較於Llama 3,訓練成本降低了30%。因此,Phi-3實現了可比的TM-Score為0.81,表明較小的模型可以達到與較大模型(如Llama 3)相匹配的性能。我們還展示了在節能高效的ET-SoC-1芯片上部署我們的模型,將TPS/W顯著提高了3倍。
建構一個通用的後識別錯誤校正器提出了一個關鍵問題:我們如何能夠在大量混合領域數據集上最有效地訓練模型?答案在於學習數據集特定的特徵並將它們的知識融合到單一模型中。先前的方法通過擁有獨立的校正語言模型來實現這一點,這導致參數顯著增加。在這項工作中,我們提出了專家混合模型作為解決方案,強調MoEs不僅僅是一個可擴展性工具。我們提出了一種多任務校正MoE,通過訓練專家將成為“專家”的語音轉文字、語言轉文字和視覺轉文字數據集,學習將每個數據集的標記路由到其映射的專家。在Open ASR Leaderboard上的實驗表明,我們通過實現平均相對5.0%的WER降低和語音和翻譯任務的BLEU分數顯著提高,探索了一種新的最先進性能。在零-shot評估中,NeKo在Hyporadise基準測試中相對WER降低15.5%至27.6%,優於GPT-3.5和Claude-Opus。NeKo作為一個多任務模型,在語法和後OCR校正方面表現出競爭力。