每日精選AI研究論文及翻譯
儘管大型語言模型(LLMs)在生成任務上表現出色,但其僅具解碼器的架構通常會限制其作為嵌入模型的潛力,除非進行進一步的表示微調。這是否與它們作為通用模型的聲稱相矛盾?為了回答這個問題,我們仔細研究了專家混合(MoE)LLMs。我們的研究顯示,MoE LLMs 中的專家路由器可以作為一種即插即用的嵌入模型,在各種嵌入專注任務上表現出色,而無需進行任何微調。此外,我們的廣泛分析表明,MoE 路由權重(RW)與LLMs 的隱藏狀態(HS)是互補的,後者是一種廣泛使用的嵌入。與HS相比,我們發現RW對提示的選擇更為穩健,並侧重於高層語義。受到這一分析的啟發,我們提出了結合RW和HS的MoEE,其性能優於單獨使用任一者。我們對它們的組合和提示策略的探索帶來了一些新的見解,例如,RW和HS相似性的加權和優於它們的串聯相似性。我們在來自大規模文本嵌入基準(MTEB)的20個數據集上進行了6個嵌入任務的實驗。結果顯示,MoEE 對LLM-based 嵌入帶來了顯著的改進,而無需進一步微調。
將醫學大型語言模型適應本地語言可以降低訪問醫療服務的障礙,但資料稀缺仍然是一個重要挑戰,特別是對於資源匱乏的語言。為了應對這一挑戰,我們首先建立了一個高質量的醫學數據集並進行分析以確保其質量。為了利用多語言大型語言模型的泛化能力,以有效擴展到更多資源受限的語言,我們從多語言的角度探索了LLMs的內部信息流,並使用專家混合(MoE)模塊化。從技術上講,我們提出了一種採用特定語言專家和跨語言路由的新型MoE路由方法。受電路理論的啟發,我們的路由分析揭示了一種信息流機制,即在較早的層次集中於跨語言信息流,而在較後的層次表現出特定語言的分歧。這一洞察直接導致了Post-MoE架構的開發,該架構僅在後期層次應用稀疏路由,同時保持其他層次的密集性。實驗結果表明,這種方法增強了多語言模型對其他語言的泛化能力,同時保持了可解釋性。最後,為了將模型有效擴展到50種語言,我們引入了語言家族專家的概念,借鑒語言先驗知識,這使得可以擴展語言數量而無需增加額外參數。
擴大大型語言模型(LLMs)的上下文窗口已成為一個至關重要的研究領域,特別是對於涉及極長文本的應用。在這項工作中,我們提出了一個新穎的無需訓練的框架,用於處理長文本,利用分治策略實現全面的文檔理解。所提出的LLMtimesMapReduce框架將整個文檔分為多個片段供LLMs閱讀,然後聚合中間答案以生成最終輸出。分治長文本處理框架的主要挑戰在於在分割文檔時有可能丟失關鍵的長程信息,這可能導致模型基於分段文本生成不完整或不正確的答案。中斷的長程信息可分為兩類:片間依賴性和片間衝突。我們設計了一個結構化信息協議來更好地應對片間依賴性,並設計了一個上下文信心校準機制來解決片間衝突。實驗結果表明,LLMtimesMapReduce能夠優於代表性的開源和商業長上下文LLMs,並且適用於多種不同的模型。
儘管擴展基於Transformer的大型語言模型(LLMs)已經展示出在各種任務中具有潛力的表現,但也引入了冗餘結構,對實際部署提出了效率挑戰。儘管在LLMs中認識到了一些冗餘性,但在transformers中不同結構(如MLP和Attention layers)之間的冗餘性變異性尚未得到深入探討。在這項工作中,我們使用基於相似度的度量標準,研究了Transformer中不同模塊(包括Blocks、MLP和Attention layers)之間的冗餘性。令人驚訝的是,儘管注意力層在區分transformers和其他結構中扮演著關鍵角色,我們發現其中大部分層次表現出過高的相似度,可以進行修剪而不降低性能。例如,通過修剪一半的注意力層,Llama-2-70B實現了48.4%的加速,僅性能下降了2.4%。此外,通過跟踪模型檢查點在整個訓練過程中的變化,我們觀察到注意力層的冗餘性是固有的並且在訓練階段之間保持一致。此外,我們進一步提出了一種方法,可以聯合丟棄Attention和MLP層,從而更積極地丟棄額外的層。例如,當丟棄31層(Attention + MLP)時,Llama-2-13B在MMLU任務上仍保留了90%的性能。我們的工作為未來網絡架構設計提供了寶貴的見解。代碼已發布在: https://github.com/Shwai-He/LLM-Drop。
多模式大型語言模型(MLLMs)經常出現幻覺現象,但其根本原因仍不明確。本文通過實證分析發現,儘管 MLLMs 在最終輸出中錯誤生成物件,但它們實際上能夠識別在前幾層中的視覺物件。我們推測這可能是由於語言模型的強知識先驗抑制了視覺信息,導致幻覺。受此啟發,我們提出了一種新的動態校正解碼方法,適用於 MLLMs(DeCo),該方法能夠自適應地選擇適當的前幾層,並將知識比例地整合到最終層以調整輸出的 logits。需要注意的是,DeCo 是模型不可知的,可以無縫地與各種經典解碼策略結合,並應用於不同的 MLLMs。我們在廣泛使用的基準測試上評估了 DeCo,顯示它能夠將幻覺率大幅降低,相較於基準線,凸顯了其減輕幻覺的潛力。代碼可在 https://github.com/zjunlp/DeCo 找到。
當前的評估技術對於主動型系統來說是不足夠的。這些方法要麼專注於最終結果,忽略了主動型系統的逐步性質,要麼需要過多的人工勞動。為了應對這一問題,我們引入了「Agent-as-a-Judge」框架,其中主動型系統被用來評估主動型系統。這是LLM-as-a-Judge框架的有機延伸,融入了使整個任務解決過程能夠獲得中間反饋的主動型特徵。我們將Agent-as-a-Judge應用於代碼生成任務。為了克服現有基準的問題,並為Agent-as-a-Judge提供一個概念驗證平臺,我們提出了DevAI,一個包含55個現實自動化AI開發任務的新基準。它包括豐富的手動標註,如總共365個分層用戶需求。我們使用Agent-as-a-Judge對三個流行的主動型系統進行基準測試,發現它在性能上遠遠優於LLM-as-a-Judge,並與我們的人類評估基準一樣可靠。總的來說,我們認為Agent-as-a-Judge標誌著現代主動型系統的一個具體進步,它提供了豐富且可靠的獎勵信號,這對於動態和可擴展的自我改進是必要的。
影片生成模型的效能在很大程度上取決於其訓練數據集的質量。大多數先前的影片生成模型是在短影片片段上進行訓練的,但最近開始越來越多地對直接在較長影片上訓練長影片生成模型感興趣。然而,缺乏高質量的長影片阻礙了長影片生成技術的進步。為了推動長影片生成的研究,我們希望有一個新的數據集,具備訓練長影片生成模型所需的四個關鍵特徵:(1)至少包含10秒的長影片、(2)無剪輯的長鏡頭影片、(3)大範圍運動和多樣內容、以及(4)時間上密集的字幕。為了實現這一目標,我們引入了一個新的流程,用於選擇高質量的無剪輯長影片並生成時間上密集的字幕。具體來說,我們定義了一組評估影片質量的指標,包括場景切換、動態程度和語義級別質量,這使我們能夠從大量來源影片中篩選出高質量的無剪輯長影片。隨後,我們開發了一個分層影片字幕生成流程,用於為長影片添加時間上密集的字幕。通過這個流程,我們編纂了第一個長鏡頭影片數據集 LVD-2M,包括 200 萬個長鏡頭影片,每個影片長度超過 10 秒,並標註了時間上密集的字幕。我們進一步通過微調影片生成模型以生成具有動態運動的長影片,驗證了 LVD-2M 的有效性。我們相信我們的工作將對未來的長影片生成研究做出重大貢獻。
大型語言模型(LLMs)展示了在推理和決策能力方面的巨大改進,能夠與用戶進行自然對話。最近,許多工具使用基準數據集已被提出。然而,現有數據集存在以下限制:(1)評估場景不足(例如,僅涵蓋有限的工具使用場景)。 (2)廣泛的評估成本(例如,GPT API成本)。為了解決這些限制,在這項工作中,我們提出了一個針對大型語言模型的多粒度工具使用基準,名為MTU-Bench。對於“多粒度”特性,我們的MTU-Bench涵蓋了五種工具使用場景(即單輪單工具、單輪多工具、多輪單工具、多輪多工具和分布之外的任務)。此外,我們的MTU-Bench的所有評估指標都基於預測結果和基準真相,而不使用任何GPT或人類評估指標。此外,我們的MTU-Bench是通過轉換現有高質量數據集來模擬真實世界的工具使用場景而收集的,我們還提出了一個名為MTU-Instruct數據集的指導數據集,以增強現有LLMs的工具使用能力。全面的實驗結果證明了我們的MTU-Bench的有效性。代碼和數據將在https://github.com/MTU-Bench-Team/MTU-Bench.git上發布。
作為近年來最受歡迎和尋求的生成模型之一,擴散模型引起了許多研究人員的興趣,並在各種生成任務中穩定地展現出優勢,例如圖像合成、視頻生成、分子設計、3D場景渲染和多模態生成,這些都依賴於它們密集的理論原則和可靠的應用實踐。這些最近在擴散模型上取得的顯著成功很大程度上來自於漸進式設計原則和高效的架構、訓練、推斷和部署方法。然而,迄今為止還沒有全面深入的回顧來總結這些原則和實踐,以幫助對擴散模型的快速理解和應用。在這份調查中,我們提供了一個新的以效率為導向的觀點,主要聚焦於架構設計、模型訓練、快速推斷和可靠部署中的深刻原則和高效實踐,以引導進一步的理論研究、算法遷移和模型應用,以應對新情境,同時以讀者友好的方式呈現。 https://github.com/ponyzym/Efficient-DMs-Survey
大型語言模型(LLMs)結合工具學習在實際應用中取得了令人印象深刻的成果。在工具學習過程中,LLMs 可能以巢狀順序調用多個工具,後者的調用可能將前者的回應作為其輸入參數。然而,目前對於巢狀工具學習能力的研究仍未得到充分探討,因為現有的基準測試缺乏相關的數據實例。為解決這一問題,我們引入 NesTools 來填補目前在全面巢狀工具學習評估方面的空白。NesTools 包括一種新穎的自動數據生成方法,用於構建具有不同巢狀結構的大規模巢狀工具調用。通過手動審查和細化,該數據集具有高質量並與現實場景密切相關。因此,NesTools 可作為評估LLMs的巢狀工具學習能力的新基準。我們對22個LLMs進行了大量實驗,並使用NesTools進行了深入分析,結果顯示目前的LLMs仍然面臨著複雜的巢狀工具學習任務。
現有研究已建立多個基準,以突顯與代碼生成人工智慧(Code GenAI)相關的安全風險。這些風險主要體現在兩個方面:模型生成不安全代碼的潛力(不安全編碼)及其在網絡攻擊中的實用性(網絡攻擊幫助)。儘管這些基準已取得重大進展,但仍存在進一步改進的機會。例如,許多當前的基準往往更注重模型提供攻擊建議的能力,而非其生成可執行攻擊的能力。此外,大多數基準傾向於嚴重依賴靜態評估指標,這可能不如動態指標(如通過測試案例)那樣精確。相反,經專家驗證的基準雖然提供高質量數據,但往往規模較小。為彌補這些差距,我們開發了SecCodePLT,這是一個統一而全面的評估平台,用於評估代碼生成人工智慧的風險。對於不安全代碼,我們引入了一種結合專家與自動生成的數據創建新方法論。我們的方法確保了數據質量,同時實現了大規模生成。我們還將樣本與測試案例相關聯,以進行與代碼相關的動態評估。對於網絡攻擊幫助,我們建立了一個真實環境並構建樣本,以促使模型生成實際攻擊,並在我們的環境中使用動態指標。我們進行了廣泛的實驗,並展示了SecCodePLT在安全相關性方面優於最先進的基準CyberSecEval。此外,它更好地識別了最先進模型在不安全編碼和網絡攻擊幫助方面的安全風險。最後,我們將SecCodePLT應用於最先進的代碼代理Cursor,並首次識別了這個先進代碼代理中的非微不足道的安全風險。
超聲心動圖是最廣泛使用的心臟影像模式,捕獲超聲視頻數據以評估心臟結構和功能。人工智慧(AI)在超聲心動圖中有潛力優化手動任務,提高可重複性和精確性。然而,大多數超聲心動圖AI模型是單視圖、單任務系統,未綜合利用完整檢查期間捕獲的多個視圖的補充信息,導致性能和應用範圍有限。為解決此問題,我們引入EchoPrime,一種基於多視圖、視圖資訊的、基於視頻的視覺語言基礎模型,訓練超過1200萬個視頻-報告對。EchoPrime使用對比學習為全面超聲心動圖研究中的所有標準視圖訓練統一嵌入模型,包括罕見和常見疾病和診斷。然後,EchoPrime利用視圖分類和視圖資訊解剖關注模型,加權視頻特定解釋,準確映射超聲心動圖視圖與解剖結構之間的關係。通過檢索增強解釋,EchoPrime整合來自全面研究中所有超聲心動圖視頻的信息,執行全面臨床超聲心動圖解釋。在兩個獨立醫療系統的數據集中,EchoPrime在23個不同心臟形態和功能基準上實現了最先進的性能,超越了任務特定方法和先前基礎模型的性能。經過嚴格的臨床評估後,EchoPrime可以協助醫生對全面超聲心動圖進行自動初步評估。
我們提出了一種基於空間和角度高斯模型的表示法和三重噴潑過程,用於從多視角點光照輸入圖像中實時高質量的新照明和視圖合成。為了描述複雜的外觀,我們採用了Lambertian加上一個角度高斯混合物作為每個空間高斯的有效反射函數。為了生成自身陰影,我們將所有空間高斯向光源噴潑以獲得陰影值,這些值進一步通過一個小型多層感知器進行精煉。為了補償其他效果,如全域照明,另一個網絡被訓練來計算並添加每個空間高斯的RGB元組。我們的表示法的有效性在30個樣本上得到了展示,這些樣本在幾何形狀(從固體到蓬鬆)和外觀(從半透明到各向異性)方面變化很大,並使用不同形式的輸入數據,包括合成/重建物體的渲染圖像、使用手持相機和閃光燈拍攝的照片,或從專業燈箱中獲得的圖像。我們在單個普通GPU上實現了40-70分鐘的訓練時間和90 fps的渲染速度。我們的結果在質量/性能方面與最先進的技術相比具有競爭力。我們的代碼和數據可在https://GSrelight.github.io/ 公開獲得。
最近在計算機視覺(CV)和自然語言處理(NLP)領域的進展主要是通過擴大網絡參數的數量推動的,儘管傳統理論表明更大的網絡容易出現過度擬合。這些大型網絡通過集成誘導簡單性偏差的組件來避免過度擬合,引導模型朝向簡單且可泛化的解決方案。然而,在深度強化學習(RL)中,設計和擴大網絡的研究相對較少。受到這一機遇的激發,我們提出了SimBa,一種旨在通過注入簡單性偏差來擴大深度RL參數的架構。SimBa由三個組件組成:(i)一個觀測歸一化層,通過運行統計信息標準化輸入,(ii)一個殘差前饋塊,提供從輸入到輸出的線性路徑,以及(iii)一個層歸一化,用於控制特徵的大小。通過SimBa擴大參數,各種深度RL算法的樣本效率(包括離線策略、在線策略和無監督方法)均得到持續改善。此外,僅通過將SimBa架構整合到SAC中,就在DMC、MyoSuite和HumanoidBench等環境中實現了與最先進的深度RL方法相匹配甚至超越的高計算效率。這些結果展示了SimBa在各種RL算法和環境中的廣泛適用性和有效性。
隨著對多功能機器人系統在各種多變環境中運作的需求不斷增加,強調了通用政策的重要性,這種政策利用大量跨體驗數據語料庫來促進廣泛適應性和高層次推理。然而,通用政策在推理效率和訓練成本昂貴方面存在困難。相反,專家政策是針對特定領域數據精心製作的,在任務級別精度和效率方面表現出色。然而,它缺乏對各種應用的泛化能力。受到這些觀察的啟發,我們介紹了RoboDual,這是一種協同雙系統,補充了通用政策和專家政策的優點。基於擴散變壓器的專家被設計用於多步驟動作展開,精心條件化於高層次任務理解和視覺-語言-動作(VLA)通用政策的離散動作輸出。與OpenVLA相比,RoboDual 在現實世界環境中實現了26.7% 的改進,在CALVIN上則提高了12%,僅通過引入具有僅2000萬可訓練參數的專家政策。它僅使用5% 的示範數據即可保持強大性能,在現實世界部署中實現了3.8倍更高的控制頻率。代碼將公開提供。我們的項目頁面位於:https://opendrivelab.com/RoboDual/
相互強化效應(MRE)探討在文本分類任務中單詞級別和文本級別分類之間的協同關係。它假設兩個分類層級的表現可以相互增強。然而,這種機制在先前的研究中尚未得到充分證明或解釋。為了填補這一空白,我們採用實證實驗來觀察和證實MRE理論。我們對21個MRE混合數據集進行了實驗,揭示了模型中MRE的存在及其影響。具體而言,我們進行了使用微調的比較實驗。比較實驗的結果發現證實了MRE的存在。此外,我們將MRE的應用擴展到提示學習,利用單詞級別信息作為一種語言化工具,以增強模型對文本級別分類標籤的預測。在我們的最終實驗中,F1分數在21個MRE混合數據集中有18個明顯超越了基準線,進一步驗證了單詞級別信息增強語言模型對整體文本的理解的概念。
最近的研究方法試圖將強大的互動分割模型(如SAM)適應互動抠像,並根據合成抠像數據集對模型進行微調。然而,在合成數據上訓練的模型無法推廣應用於複雜和遮擋場景。我們通過提出一個基於COCO數據集的新抠像數據集來應對這一挑戰,即COCO-抠像。具體來說,我們的COCO-抠像構建包括配件融合和遮罩轉抠像,從COCO中選擇真實世界的複雜圖像,並將語義分割遮罩轉換為抠像標籤。構建的COCO-抠像包含了38251個複雜自然場景中的人類實例級α抠像的廣泛集合。此外,現有基於SAM的抠像方法從凍結的SAM中提取中間特徵和遮罩,並僅通過端到端抠像損失訓練輕量級抠像解碼器,未充分發揮預訓練SAM的潛力。因此,我們提出了SEMat,重新設計了網絡架構和訓練目標。對於網絡架構,提出的特徵對齊變壓器學習提取精細的邊緣和透明度特徵。提出的抠像對齊解碼器旨在分割抠像特定對象並將粗糙遮罩轉換為高精度抠像。對於訓練目標,提出的正則化和trimap損失旨在保留來自預訓練模型的先驗知識,並將從遮罩解碼器中提取的抠像對數包含trimap基礎語義信息。在七個不同數據集上進行的大量實驗表明了我們方法的優越性能,證明了其在互動自然圖像抠像中的有效性。我們在https://github.com/XiaRho/SEMat 上開源我們的代碼、模型和數據集。
有效地從大規模多模式收集中檢索和綜合信息已成為一個關鍵挑戰。然而,現有的視頻檢索數據集存在範圍限制,主要集中在將描述性但模糊的查詢與小規模專業編輯的以英語為中心的視頻匹配。為了解決這一問題,我們引入了MultiVENT 2.0,一個大規模、多語言事件中心的視頻檢索基準,包含超過218,000條新聞視頻和3,906個針對特定世界事件的查詢。這些查詢特別針對視頻的視覺內容、音頻、嵌入式文本和文本元數據中的信息,要求系統利用所有這些來源才能成功完成任務。初步結果顯示,最先進的視覺語言模型在這項任務上遇到了很大困難,而替代方法表現出一定的潛力,但仍不足以充分解決這個問題。這些發現強調了需要更強大的多模式檢索系統,因為有效的視頻檢索是實現多模式內容理解和生成任務的關鍵一步。