每日精選AI研究論文及翻譯
在視覺語言模型(VLMs)領域的快速進展展示了在處理涉及視覺背景的數學推理任務方面具有巨大潛力。與人類不同,人類可以可靠地將解決步驟應用於具有輕微修改的類似問題,我們發現像GPT-4o這樣的最先進VLMs在這些情況下經常失敗,揭示了它們在數學推理能力方面的限制。在本文中,我們研究了VLMs中的數學推理韌性,並評估了這些模型在相同問題的不同變體下的表現,例如視覺數值或函數圖形的變化。雖然已經開發了幾個基於視覺的數學基準來評估VLMs的解決問題能力,但這些基準僅包含靜態問題集,並且無法輕易評估數學推理韌性。為了填補這一空白,我們引入了DynaMath,一個旨在深入評估VLMs的動態視覺數學基準。DynaMath包括501個高質量、多主題種子問題,每個問題都表示為Python程序。這些程序經過精心設計和標註,以便自動生成更大量的具體問題集,包括許多不同類型的視覺和文本變化。DynaMath使我們能夠評估VLMs的泛化能力,通過評估它們在種子問題的不同輸入條件下的表現。我們使用5,010個生成的具體問題對14個最先進的VLMs進行了評估。我們的結果顯示,在所有10個變體中,最壞情況模型準確率,即在所有10個變體中正確回答種子問題的百分比,顯著低於平均情況準確率。我們的分析強調了研究VLMs推理能力韌性的必要性,而DynaMath提供了有價值的見解,以指導開發更可靠的數學推理模型。
專家混合(MoEs)在更高效和有效的大型語言模型(LLMs)的發展中扮演著重要角色。由於巨大的資源需求,研究大規模MoE算法對許多研究人員來說是難以接觸的。本研究開發了LibMoE,一個全面且模塊化的框架,以簡化MoE算法的研究、訓練和評估。基於三個核心原則:(i)模塊化設計,(ii)高效訓練;(iii)全面評估,LibMoE通過標準化訓練和評估流程,使MoE在LLMs中更容易接觸到廣泛的研究人員。使用LibMoE,我們在零-shot設置下對三種不同的LLMs和11個數據集上廣泛評估了五種最先進的MoE算法。結果顯示,儘管具有獨特特性,所有MoE算法在廣泛任務範圍內平均表現大致相似。憑藉模塊化設計和全面評估,我們相信LibMoE將對研究人員朝著下一代MoE和LLMs取得有意義進展具有重要價值。項目頁面:https://fsoft-aic.github.io/fsoft-LibMoE.github.io。
儘管大型語言模型(LLM)量化在推理加速方面很受歡迎,但對於與各種量化格式相關的準確性和性能折衷仍存在重大不確定性。我們提出了一項全面的實證研究,評估了流行的量化格式(FP8、INT8、INT4)在學術基準和實際任務中的量化準確性,並應用在整個Llama-3.1模型系列上。此外,我們的研究還檢驗了量化模型生成的文本與其未壓縮對應物之間的差異。除了基準測試外,我們還提出了幾項量化改進,使我們獲得了最先進的準確性恢復結果。我們的研究涵蓋了超過50萬個個別評估,得出了幾個關鍵發現:(1)FP8權重和激活量化(W8A8-FP)在所有模型規模上都是無損的,(2)INT8權重和激活量化(W8A8-INT),在適當調整時,產生了令人驚訝的低1-3%的準確性降級,以及(3)INT4僅權重量化(W4A16-INT)與8位整數權重和激活量化相競爭。為了解決在特定部署環境中選擇“最佳”格式的問題,我們使用流行的開源vLLM框架在各種GPU架構上進行推理性能分析。我們發現,W4A16在同步部署方面提供了最佳的成本效益,而對於中階GPU的異步部署而言,W8A8格式表現出色。同時,W8A8格式在高端GPU上中大型模型的異步“連續批處理”部署中表現卓越。我們的結果為跨規模和性能要求部署量化LLM提供了一套實用指南。
自主代理在與現實世界互動中變得越來越重要。特別是,Android代理最近成為一種經常提及的互動方法。然而,現有用於訓練和評估Android代理的研究缺乏對開源和封閉源模型的系統性研究。在這項工作中,我們提出了AndroidLab作為一個系統化的Android代理框架。它包括一個具有不同模態、動作空間和可重現基準的操作環境。它支持在相同動作空間中的大型語言模型(LLMs)和多模型模型(LMMs)。AndroidLab基準包括預定義的Android虛擬設備和跨九個應用程序的138個任務。通過使用AndroidLab環境,我們開發了一個Android指令數據集,並訓練了六個開源的LLMs和LMMs,將LLMs的平均成功率從4.59%提高到21.50%,將LMMs的平均成功率從1.93%提高到13.28%。AndroidLab是開源的,並且可以在https://github.com/THUDM/Android-Lab 上公開獲取。
大型語言模型(LLMs)展現出在網絡任務中作為自主代理的顯著潛力。然而,現有的LLM網絡代理在很大程度上依賴昂貴的專有LLM API,而開放的LLMs則缺乏必要的決策能力。本文介紹了WebRL,這是一個自我演化的在線課程強化學習框架,旨在使用開放的LLMs訓練高性能網絡代理。WebRL解決了構建LLM網絡代理時的三個關鍵挑戰,包括訓練任務的稀缺性、反饋信號的稀疏性以及在線學習中的策略分佈漂移。具體來說,WebRL包括1)一個自我演化課程,從失敗的嘗試中生成新任務,2)一個強大的結果監督獎勵模型(ORM),以及3)適應性強化學習策略,以確保持續改進。我們應用WebRL將開放的Llama-3.1和GLM-4模型轉換為熟練的網絡代理。在WebArena-Lite上,WebRL將Llama-3.1-8B的成功率從4.8%提高到42.4%,將GLM-4-9B的成功率從6.1%提高到43%。這些開放模型顯著超越了GPT-4-Turbo(17.6%)和GPT-4o(13.9%)的性能,並且勝過先前在開放的LLMs上訓練的最先進網絡代理(AutoWebGLM,18.2%)。我們的研究結果表明WebRL在構建開放和專有LLM為基礎的網絡代理之間的差距上的有效性,為更具可訪問性和強大的自主網絡互動系統鋪平了道路。
OpenAI 的 Sora 強調了影片生成的潛力,可以發展符合基本物理法則的世界模型。然而,影片生成模型能否純粹從視覺數據中發現這些法則,而不依賴人類先驗知識,這一點值得懷疑。一個學習真實法則的世界模型應該能夠對微妙之處做出堅固的預測,並能在未見過的情況下正確推斷。在這項工作中,我們在三個關鍵情境中進行評估:分布內、分布外以及組合泛化。我們開發了一個二維模擬測試平台,用於對物體運動和碰撞進行生成影片,這些影片受一個或多個古典力學法則的確定性控制。這為大規模實驗提供了無限的數據,並能夠量化評估生成的影片是否遵循物理法則。我們訓練了基於擴散的影片生成模型,以預測基於初始幀的物體運動。我們的擴展實驗表明,在分布內實現了完美泛化,在組合泛化中呈現可測量的擴展行為,但在分布外情境中失敗了。進一步的實驗揭示了關於這些模型泛化機制的兩個關鍵見解:(1) 這些模型無法抽象出一般物理規則,而是展現出“基於案例”的泛化行為,即模仿最接近的訓練示例;(2) 在泛化到新案例時,觀察到模型在參考訓練數據時會優先考慮不同因素:顏色 > 尺寸 > 速度 > 形狀。我們的研究表明,僅靠擴展本身是不足以讓影片生成模型揭示基本物理法則的,儘管在 Sora 的更廣泛成功中扮演了一定角色。請查看我們的項目頁面:https://phyworld.github.io
現有的LLM代理系統通常在每個步驟從一組固定且預定義的動作中選擇。儘管這種方法在封閉且範圍狹窄的環境中是有效的,但我們認為在將LLM代理部署到現實場景中時,會面臨兩個主要挑戰:(1) 從固定的動作集合中選擇顯著限制了LLM代理的規劃和執行能力,以及(2) 這種方法需要大量人力來枚舉和實現所有可能的動作,在具有大量潛在動作的複雜環境中變得不切實際。在這項工作中,我們提出了一個LLM代理框架,可以在線動態創建和組合動作。在這個框架中,代理通過在每個步驟生成並執行用通用程式語言編寫的程序來與環境交互。此外,生成的動作會隨著時間累積以供將來重複使用。我們在GAIA基準測試上進行了大量實驗,證明該框架提供了顯著更大的靈活性並優於先前的方法。值得注意的是,它允許LLM代理在預定義集合中不存在相關動作或現有動作因意外邊緣情況而失敗的情況下進行恢復。在撰寫本文時,我們在GAIA公共排行榜上名列前茅。我們的程式碼可以在以下網址找到:https://github.com/adobe-research/dynasaur{https://github.com/adobe-research/dynasaur}。
擴散模型在文本轉圖像生成方面展現出卓越的能力。隨著大型語言模型(例如T5、Llama)的出現,它們對語義理解(即後續提示)的能力也得到了很大改善。然而,現有模型無法完美處理長且複雜的文本提示,特別是當文本提示包含多個具有許多屬性和相互關聯空間關係的物件時。雖然已經提出了許多針對基於UNet模型(如SD1.5、SDXL)的區域提示方法,但仍然沒有基於最近的擴散Transformer(DiT)架構(例如SD3和FLUX.1)的實現。在本報告中,我們提出並實現了基於注意力操作的FLUX.1的區域提示,這使得DiT能夠以訓練免費的方式具有精細的組合文本轉圖像生成能力。代碼可在https://github.com/antonioo-c/Regional-Prompting-FLUX找到。
在 3D 資產製作工作流程中,質感是一個至關重要的步驟,它增強了 3D 資產的視覺吸引力和多樣性。儘管最近在文本轉質感(T2T)生成方面取得了進展,現有方法通常產生次優質的結果,主要是由於局部不連續性、多視角之間的不一致性,以及對 UV 展開結果的重度依賴。為了應對這些挑戰,我們提出了一種名為 MVPaint 的新型生成-精煉 3D 質感框架,可以生成高分辨率、無縫質感,同時強調多視角一致性。MVPaint 主要包括三個關鍵模塊。1)同步多視角生成(SMG)。給定一個 3D 網格模型,MVPaint 首先通過採用 SMG 模型同時生成多視角圖像,這導致粗糙的質感結果,其中未塗色的部分是由於觀察缺失。2)空間感知 3D 補全(S3I)。為了確保完整的 3D 質感,我們引入了 S3I 方法,專門設計用於有效地質感以前未觀察到的區域。3)UV 精煉(UVR)。此外,MVPaint 使用 UVR 模塊來改善 UV 空間中的質感質量,首先執行 UV 空間超分辨率,然後通過一個空間感知縫合平滑算法來修正由 UV 展開引起的空間質感不連續性。此外,我們建立了兩個 T2T 評估基準:Objaverse T2T 基準和 GSO T2T 基準,分別基於 Objaverse 數據集中選定的高質量 3D 網格和整個 GSO 數據集。大量實驗結果表明,MVPaint 超越了現有的最先進方法。值得注意的是,MVPaint 能夠生成高保真度的質感,並且具有最小的 Janus 問題和高度增強的跨視角一致性。
本文介紹了目前最大的開源基於Transformer的專家混合模型Hunyuan-Large,總共擁有3890億參數和520億激活參數,能夠處理高達256K的標記。我們對Hunyuan-Large在各種基準測試中的卓越表現進行了全面評估,包括語言理解和生成、邏輯推理、數學問題解決、編碼、長文本內容和聚合任務,在這些測試中,它優於LLama3.1-70B,並在與規模更大的LLama3.1-405B模型相比時表現出可比性。Hunyuan-Large的關鍵實踐包括比以往文獻中更大規模的合成數據、混合專家路由策略、鍵-值緩存壓縮技術和專家特定的學習率策略。此外,我們還研究了專家混合模型的擴展規律和學習率計劃,為未來模型開發和優化提供了寶貴的見解和指導。Hunyuan-Large的代碼和檢查點已釋出,以促進未來的創新和應用。 代碼:https://github.com/Tencent/Hunyuan-Large 模型:https://huggingface.co/tencent/Tencent-Hunyuan-Large
在各種應用中大規模部署大型語言模型(LLMs),例如聊天機器人和虛擬助手,需要LLMs對用戶具有文化敏感性,以確保包容性。文化在心理學和人類學中得到廣泛研究,最近在使LLMs更具文化包容性方面出現了激增的研究,這超越了多語性,並建立在心理學和人類學研究成果的基礎上。在本文中,我們調查了將文化意識融入基於文本和多模式LLMs的努力。我們首先通過從人類學和心理學中的文化定義作為出發點,來定義LLMs中的文化意識。然後,我們檢視了用於創建跨文化數據集的方法論,文化包容性在下游任務中的策略,以及用於在LLMs中基準文化意識的方法論。此外,我們討論了文化對齊的道德影響,人機交互在推動LLMs中文化包容性方面的作用,以及文化對齊在推動社會科學研究中的作用。最後,我們根據我們對文獻中存在的空白的發現,提供了未來研究的指引。
生成時間一致且高保真度的影片可能在計算上具有高昂成本,特別是在較長的時間跨度上。最近的擴散Transformer(DiTs)雖然在這方面取得了顯著進展,但由於依賴更大的模型和更重的注意機制,導致推理速度變慢,進一步加劇了這些挑戰。在本文中,我們介紹了一種無需訓練的方法來加速影片DiTs,稱為自適應緩存(AdaCache),其動機在於“並非所有影片皆相同”:意即,有些影片只需較少的去噪步驟即可達到合理的品質。基於此,我們不僅通過擴散過程進行緩存計算,還為每個影片生成設計了一個適合的緩存計劃,最大程度地平衡品質和延遲之間的權衡。我們進一步引入了運動正則化(MoReg)方案,以在AdaCache中利用影片信息,基本上根據運動內容控制計算分配。總的來說,我們的即插即用貢獻可以顯著提高推理速度(例如,在Open-Sora 720p - 2s影片生成上最多可達4.7倍),而不會犧牲生成品質,跨多個影片DiT基線。
近年來2D視覺生成的發展取得了顯著成功。然而,在真實應用中,3D和4D生成仍然具有挑戰性,這是由於缺乏大規模的4D數據和有效的模型設計。在本文中,我們提出通過利用日常生活中常見的攝像機和物體運動來共同研究一般的3D和4D生成。由於社區中缺乏真實世界的4D數據,我們首先提出了一個數據整理流程,從視頻中獲取攝像機姿勢和物體運動強度。基於這個流程,我們介紹了一個大規模的真實世界4D場景數據集:CamVid-30K。通過利用所有的3D和4D數據,我們開發了我們的框架GenXD,它使我們能夠生成任何3D或4D場景。我們提出了多視圖-時間模塊,可以將攝像機和物體運動解耦,從而無縫地從3D和4D數據中學習。此外,GenXD採用了遮罩潛在條件來支持各種條件視圖。GenXD可以生成遵循攝像機軌跡的視頻,以及可以轉換為3D表示的一致的3D視圖。我們在各種真實世界和合成數據集上進行了廣泛的評估,展示了GenXD在3D和4D生成方面相對於以往方法的有效性和多功能性。
現代視覺效果(VFX)軟體使熟練的藝術家能夠創造幾乎任何事物的影像。然而,創作過程仍然費時、複雜,並且對於一般用戶來說很難接觸。在這項研究中,我們提出了AutoVFX,這是一個框架,可以從單個視頻和自然語言指示自動創建逼真且動態的VFX視頻。通過精心整合神經場景建模、基於LLM的代碼生成和物理模擬,AutoVFX能夠提供具有物理基礎的、照片般逼真的編輯效果,並且可以直接使用自然語言指示進行控制。我們進行了大量實驗,以驗證AutoVFX在各種視頻和指示中的有效性。定量和定性結果表明,AutoVFX在生成質量、指示對齊、編輯多功能性和物理合理性方面遠遠優於所有競爭方法。
啟動稀疏性表示啟動輸出中存在大量較弱貢獻元素,這些元素可以被消除,有益於許多與大型語言模型(LLMs)相關的重要應用。儘管在LLMs中促進更大的啟動稀疏性值得深入研究,但現有研究缺乏對啟動稀疏性與潛在影響因素之間相關性的全面和定量研究。本文提出了一項針對基於Transformer的僅解碼器的LLMs中啟動稀疏性的定量縮放特性和影響因素的全面研究。具體來說,我們提出了PPL-p%稀疏性,這是一個精確且性能感知的啟動稀疏性度量標準,適用於任何啟動函數。通過大量實驗,我們發現了幾個重要現象。首先,不同的啟動函數表現出可比較的性能,但訓練時稀疏性趨勢相反。啟動比率(即1-稀疏比率)隨著SiLU啟動和ReLU啟動的LLMs的訓練數據量呈現收斂增長冪律和減少對數空間冪律。這表明ReLU作為啟動函數比SiLU更有效,可以利用更多訓練數據來提高啟動稀疏性。其次,在某一瓶頸點以下,啟動比率與寬度-深度比例呈線性增長,這表明在固定參數規模下,更深的架構具有潛在優勢。最後,在相似的寬度-深度比例下,我們驚訝地發現啟動稀疏性的極限值與參數規模變化微弱,即LLMs中的啟動模式對參數規模不敏感。這些針對具有更大啟動稀疏性的LLMs的實證定律對於使LLMs更有效和可解釋具有重要意義。
過去一年來,我們見證了基於影片的大型語言模型取得顯著進展。然而,為短影片和長影片開發統一模型的挑戰仍未解決。大多數現有的影片語言模型無法處理長達一小時的影片,而針對長影片定制的方法往往對於較短的影片和圖像效果不佳。在本文中,我們將關鍵問題定位為影片中的冗餘內容。為了應對這一問題,我們提出了一種新穎的池化策略,同時實現了標記壓縮和指示感知的視覺特徵聚合。我們的模型被稱為Prompt-guided Pooling LLaVA,簡稱PPLLaVA。具體而言,PPLLaVA 包括三個核心組件:基於CLIP的視覺提示對齊,提取與用戶指示相關的視覺信息;指導式池化,使用類似卷積的池化將視覺序列壓縮到任意尺度;以及針對視覺對話中常見的冗長提示設計的clip上下文擴展。此外,我們的代碼庫還整合了最先進的視頻直接偏好優化(DPO)和視覺交錯訓練。大量實驗已驗證了我們模型的性能。在僅使用1024個視覺上下文且具有出色的吞吐量的情況下,PPLLaVA 在圖像基準測試中作為視頻語言模型取得了更好的結果,同時在各種視頻基準測試中實現了最先進的性能,在從生成標題到多選問題的任務中表現優異,並處理從幾秒到幾小時的視頻長度。代碼已在以下鏈接提供:https://github.com/farewellthree/PPLLaVA。
在大型語言模型(LLM)的開發中,從人類反饋中進行強化學習(RLHF)對於使模型與人類價值觀和偏好保持一致至關重要。RLHF傳統上依賴當前策略與凍結初始策略之間的Kullback-Leibler(KL)散度作為參考,將其作為懲罰添加到策略優化算法(如Proximal Policy Optimization(PPO))中。雖然這種限制防止模型偏離初始檢查點太遠,但它限制了對獎勵空間的探索,降低了模型發現更高質量解決方案的能力。因此,策略優化通常被困在參數空間的狹窄區域中,導致次優的對齊和性能。本文提出了SALSA(基於湯的對齊學習以實現更強適應性),這是一種新方法,旨在通過對兩個獨立的監督微調(SFT)模型的權重空間平均化,創建一個更靈活且更好定位的參考模型,從而克服這些限制。這種模型湯允許在KL散度中有更大的偏差,並在不犧牲穩定性的情況下探索解決方案空間中有前途的區域。通過利用這個更穩健的參考模型,SALSA促進了更好的探索,實現了更高的獎勵並改善了模型的韌性、超出分發的泛化能力和性能。我們通過在流行的開放模型(Llama2-7B、Mistral-7B和Gemma-2B)上進行大量實驗來驗證SALSA的有效性,涵蓋各種基準測試(MT-Bench、Arena-Hard、UltraFeedback),在這些實驗中,SALSA始終通過促進更深入的探索並在LLM中實現更優異的對齊, consistently surpasses PPO。
我們介紹了圖像目標表示(IGOR),旨在學習一個統一的、在人類和各種機器人之間具有語義一致的行動空間。通過這個統一的潛在行動空間,IGOR實現了在大規模機器人和人類活動數據之間的知識轉移。我們通過將初始圖像與目標狀態之間的視覺變化壓縮為潛在行動,來實現這一點。IGOR使我們能夠為互聯網規模的視頻數據生成潛在行動標籤。這個統一的潛在行動空間使得能夠在各種由機器人和人類執行的任務中訓練基礎策略和世界模型。我們證明:(1)IGOR學習了一個對人類和機器人都具有語義一致的行動空間,描述了代表物理交互知識的各種可能運動;(2)IGOR可以通過共同使用潛在行動模型和世界模型,“遷移”一個視頻中物體的運動到其他視頻,甚至跨越人類和機器人之間;(3)IGOR可以通過基礎策略模型學習將潛在行動與自然語言對齊,並將潛在行動與低級策略模型結合,實現有效的機器人控制。我們相信IGOR為人類到機器人的知識轉移和控制開啟了新的可能性。
針對基礎模型(FMs)可能存在的潛在風險,理解並緩解這些風險的關鍵在於開發有效的可解釋性方法。稀疏自編碼器(SAEs)已被證明是一種有前途的工具,用於解開FM表示中的複雜性,但它們往往難以捕捉數據中罕見但至關重要的概念。我們引入了專門的稀疏自編碼器(SSAEs),旨在通過專注於特定子領域來揭示這些難以捉摸的暗物質特徵。我們提出了一個實用的訓練SSAEs的方法,展示了對於數據選擇的密集檢索的有效性,以及傾斜的經驗風險最小化作為改善概念召回的訓練目標的好處。我們對SSAEs在標準指標上的評估,如下游困惑度和L_0稀疏性,顯示它們有效地捕捉了子領域尾部概念,超越了通用SAEs的能力。我們展示了SSAEs在Bias in Bios數據集上的案例研究中的實際效用,在該研究中,當應用於刪除虛假性別信息時,SSAEs實現了最差組分類準確性增加了12.5%。SSAEs為深入研究子領域中FM內部運作提供了一個強大的新視角。
我們提出了多專家提示(Multi-expert Prompting),這是對專家提示(ExpertPrompting)的一項新穎增強,旨在改進大型語言模型(LLM)的生成。具體而言,它通過模擬多個專家,匯總他們的回應,並從個別和匯總的回應中選擇最佳回應,來引導LLM完成輸入指令。這個過程是通過我們從Nominal Group Technique(Ven和Delbecq,1974)中精心設計的七個子任務在一個思維鏈中進行的,該技術是一個成熟的決策框架。我們的評估表明,多專家提示在增強回應的真實性、事實性、信息量和有用性方面顯著優於專家提示和可比較的基準,同時減少了毒性和傷害性。它進一步通過ChatGPT比最佳基準高出8.69%,實現了最新的真實性。多專家提示高效、可解釋,並且高度適應各種情境,消除了手動提示構建的需求。
本文描述了一種使用預訓練擴散模型來解決帶有噪聲的線性反問題的高效算法。在擴散去噪隱式模型(DDIM)範式的基礎上,我們提出了受限擴散隱式模型(CDIM),通過修改擴散更新以對最終輸出施加約束。對於無噪聲的反問題,CDIM確切滿足約束;在有噪聲的情況下,我們將CDIM擴展以滿足對噪聲殘差分佈的確切約束。通過各種任務和指標的實驗顯示了CDIM的強大性能,具有與無約束DDIM相似的推理加速度:比先前的條件擴散方法快10到50倍。我們展示了我們方法在許多問題上的多功能性,包括超分辨率、去噪、修補、去模糊和三維點雲重建。
最近,大型多模型模型(LMMs)在理解文本豐富的圖像方面取得了巨大進展,但仍然在處理複雜、多頁面、視覺豐富的文件方面遇到困難。傳統方法使用文件解析器進行檢索增強生成存在性能和效率限制,而直接將所有頁面呈現給LMMs會導致效率低下,特別是對於長篇文件。在這項工作中,我們提出了一個名為LoRA-大型多模型模型的情境適應(LoCAL)的新框架,擴展了任何LMM的能力,以支持對長篇文件的理解。我們展示了LMMs可以有效地作為多模檢索器,檢索相關頁面以回答基於這些頁面的用戶問題。LoCAL實施了兩個特定的LMM適配器:一個用於證據頁面檢索,另一個用於問答。實證結果在公共基準測試中展示了最先進的性能,證明了LoCAL的有效性。
我們介紹了Swan,一系列以阿拉伯語為中心的嵌入式模型,涵蓋小規模和大規模應用案例。Swan包括兩個變體:基於ARBERTv2的Swan-Small和基於預訓練阿拉伯語大型語言模型ArMistral的Swan-Large。為了評估這些模型,我們提出了ArabicMTEB,這是一個全面的基準套件,評估跨語言、多方言、多領域和多文化阿拉伯文本嵌入效能,涵蓋八個不同任務,跨越94個數據集。Swan-Large取得了最先進的結果,在大多數阿拉伯語任務中勝過Multilingual-E5-large,而Swan-Small則持續優於Multilingual-E5 base。我們的廣泛評估表明,Swan模型在方言和文化上都很敏感,在各種阿拉伯領域表現卓越,同時提供顯著的效益。這項工作顯著推動了阿拉伯語言建模領域,為未來在阿拉伯自然語言處理方面的研究和應用提供了寶貴資源。我們的模型和基準將對研究公開。