每日精選AI研究論文及翻譯
我們推出Qwen-Image,這是Qwen系列中的一個圖像生成基礎模型,在複雜文本渲染和精確圖像編輯方面取得了顯著進展。為應對複雜文本渲染的挑戰,我們設計了一個全面的數據管道,包括大規模數據收集、過濾、註釋、合成和平衡。此外,我們採用了一種漸進式訓練策略,從非文本到文本渲染開始,從簡單到複雜的文本輸入逐步演進,並最終擴展到段落級描述。這種課程學習方法顯著增強了模型的原生文本渲染能力。因此,Qwen-Image不僅在英語等字母語言中表現出色,還在更具挑戰性的象形文字語言(如中文)上取得了顯著進展。為提升圖像編輯的一致性,我們引入了一種改進的多任務訓練範式,不僅包含傳統的文本到圖像(T2I)和文本圖像到圖像(TI2I)任務,還包括圖像到圖像(I2I)重建,有效地對齊了Qwen2.5-VL和MMDiT之間的潛在表示。此外,我們分別將原始圖像輸入Qwen2.5-VL和VAE編碼器,以獲取語義和重建表示。這種雙重編碼機制使編輯模塊能夠在保持語義一致性和視覺保真度之間取得平衡。Qwen-Image在多個基準測試中達到了最先進的性能,展示了其在圖像生成和編輯方面的強大能力。
在長文件上進行檢索增強生成(RAG)通常涉及將文本分割成較小的片段,這些片段作為檢索的基本單位。然而,由於原始文件中的依賴關係,上下文信息對於準確解釋每個片段往往至關重要。為了解決這個問題,先前的研究探索了編碼更長的上下文窗口,以生成更長片段的嵌入。儘管有這些努力,檢索和下游任務的提升仍然有限。這是因為(1)更長的片段由於需要編碼的信息量增加,對嵌入模型的容量造成了壓力;(2)許多實際應用由於模型或人類帶寬的限制,仍然需要返回局部化的證據。 我們提出了一種替代方法來應對這一挑戰,通過以更廣泛的上下文窗口為條件來表示短片段,從而提升檢索性能——即,將片段的意義置於其上下文中。我們進一步表明,現有的嵌入模型並不能有效地編碼這種情境化的上下文,因此引入了一種新的訓練範式,並開發了情境化嵌入模型(SitEmb)。為了評估我們的方法,我們策劃了一個專門設計來評估情境化檢索能力的書籍情節檢索數據集。在這個基準測試中,我們基於BGE-M3的SitEmb-v1模型顯著優於包括幾個擁有7-8B參數的模型在內的頂尖嵌入模型,而僅有1B參數。我們的8B SitEmb-v1.5模型進一步將性能提升了超過10%,並在多種語言和多個下游應用中顯示出強勁的結果。
虚拟细胞建模代表了人工智能与生物学交叉领域的一个新兴前沿,旨在定量预测诸如对多种扰动的响应等量值。然而,由于生物系统的复杂性、数据模态的异质性以及跨多个学科领域专业知识的需求,自主构建虚拟细胞的计算模型颇具挑战。本文介绍了一种名为CellForge的代理系统,该系统利用多代理框架,将提供的生物数据集和研究目标直接转化为优化的虚拟细胞计算模型。具体而言,仅需输入原始的单细胞多组学数据和任务描述,CellForge即可输出优化的模型架构及用于训练虚拟细胞模型和推理的可执行代码。该框架整合了三个核心模块:任务分析模块,用于对提供的数据集进行特征描述及检索相关文献;方法设计模块,其中专门化的代理协作开发优化的建模策略;以及实验执行模块,用于自动化生成代码。设计模块中的代理被划分为具有不同视角的专家和一位中央协调者,他们需协作交换解决方案直至达成合理共识。我们通过使用涵盖基因敲除、药物治疗和细胞因子刺激等多种模态的六个不同数据集,展示了CellForge在单细胞扰动预测中的能力。CellForge在各项任务中均优于特定任务的最先进方法。总体而言,CellForge展示了具有不同视角的大型语言模型代理之间的迭代交互如何比直接应对建模挑战提供更优解决方案。我们的代码公开于https://github.com/gersteinlab/CellForge。
推理模型在复杂问题解决方面表现出色,但在推理能力与指令遵循能力之间存在着令人担忧的权衡。现有提升指令遵循能力的方法依赖于更强大的外部模型,这导致了方法论上的瓶颈和实际限制,包括成本增加和可访问性受限。我们提出了一种自监督强化学习框架,该框架利用推理模型自身的内部信号来提升指令遵循能力,而无需外部监督。大量实验表明,我们的框架在保持推理性能的同时,显著提升了指令遵循能力,为增强推理模型中的指令遵循提供了一种可扩展且经济高效的方法。数据和代码已公开于https://github.com/Rainier-rq/verl-if。
大型語言模型(LLMs)在多個領域展現了顯著的成功,然而其在網絡安全應用中的整合仍受限於通用網絡安全數據的缺乏、表示複雜性以及安全與監管問題。為彌補這一差距,我們先前推出了Foundation-Sec-8B,這是一款專注於網絡安全的LLM,適合在下游任務中進行微調。然而,該模型並非為聊天式互動或指令遵循而設計。在本報告中,我們發布了Foundation-Sec-8B-Instruct:一款專門訓練用於通用網絡安全對話的模型。基於Foundation-Sec-8B構建,它結合了領域特定知識、指令遵循能力、對話能力以及與人類偏好的對齊,以產生高質量且相關的回應。全面評估顯示,Foundation-Sec-8B-Instruct在一系列網絡安全任務上優於Llama 3.1-8B-Instruct,同時在指令遵循性能上與之匹敵。在網絡威脅情報和指令遵循任務上,它也能與GPT-4o-mini競爭。我們預見Foundation-Sec-8B-Instruct將成為網絡安全專業人員日常工作中不可或缺的助手。我們已將該模型公開發布於https://huggingface.co/fdtn-ai/Foundation-Sec-8B-Instruct。
绝大多数人类蛋白质仍未被药物靶向,超过96%的人类蛋白质尚未被已批准的治疗药物开发利用。尽管基于结构的虚拟筛选有望扩展可药物化的蛋白质组,但现有方法缺乏原子级别的精确度,且无法预测结合适应性,这限制了其转化应用。我们提出了AuroBind,一个可扩展的虚拟筛选框架,该框架在百万级规模的化学基因组数据上微调了一个定制的原子级结构模型。AuroBind整合了直接偏好优化、高置信度复合物的自蒸馏以及师生加速策略,共同预测配体结合结构和结合适应性。所提出的模型在结构和功能基准测试中超越了现有最先进的模型,同时实现了在超大规模化合物库中100,000倍更快的筛选速度。在针对十个疾病相关靶点的前瞻性筛选中,AuroBind的实验命中率达到了7-69%,其中顶级化合物的效力达到了亚纳摩尔至皮摩尔级别。对于孤儿GPCRs GPR151和GPR160,AuroBind成功识别了激动剂和拮抗剂,成功率在16-30%之间,功能实验证实了GPR160在肝癌和前列腺癌模型中的调节作用。AuroBind为结构功能学习和高通量分子筛选提供了一个可推广的框架,弥合了结构预测与治疗发现之间的鸿沟。
近期,大型语言模型(LLMs)的进展推动了全模态理解与生成的显著进步。然而,由于处理多种模态所需的异构模型架构,训练全模态LLMs仍面临重大挑战,这要求进行复杂的系统设计以实现高效的大规模训练。现有框架通常将模型定义与并行逻辑紧密耦合,导致可扩展性受限,并为端到端全模态训练带来大量工程开销。我们提出了一种模块化且高效的训练框架——\veomni,以加速全模态LLMs的开发。\veomni引入了以模型为中心的分布式方案,将通信与计算解耦,从而在全模态LLMs上实现高效的三维并行。\veomni还具备灵活的配置接口,支持以最少的代码变更无缝集成新模态。使用\veomni,一个拥有300亿参数的全模态专家混合(MoE)模型可在128个GPU上通过三维并行实现超过2,800 tokens/sec/GPU的吞吐量,并扩展至160K上下文长度,展示了其在训练大规模全模态LLMs方面的卓越效率与可扩展性。
要在現實世界中有效運作,機器人必須將多模態推理與精確的動作生成相結合。然而,現有的視覺-語言-動作(VLA)模型往往顧此失彼,將其能力局限於特定任務的操作數據,並且會嚴重遺忘預訓練的視覺-語言能力。為彌補這一差距,我們引入了InstructVLA,這是一種端到端的VLA模型,它保留了大型視覺-語言模型(VLM)的靈活推理能力,同時提供了領先的操作性能。InstructVLA引入了一種新穎的訓練範式——視覺-語言-動作指令微調(VLA-IT),該範式通過多模態訓練與專家混合適應相結合,共同優化文本推理和動作生成,並在標準的VLM語料庫和精心策劃的650K樣本VLA-IT數據集上進行訓練。在域內SimplerEnv任務中,InstructVLA相比SpatialVLA提升了30.5%。為評估泛化能力,我們引入了SimplerEnv-Instruct,這是一個包含80個任務的基準測試,要求閉環控制和高層次指令理解,在此測試中,InstructVLA超越了微調的OpenVLA 92%,並比由GPT-4o輔助的動作專家高出29%。此外,InstructVLA在多模態任務上超越了基線VLM,並通過利用文本推理在模擬和現實環境中提升操作性能,展示了推理時的擴展能力。這些結果表明,InstructVLA在橋接直觀且可操控的人機交互與高效策略學習方面具有巨大潛力。
大規模數據集是自然語言處理研究與發展的基石。然而,當前的方法面臨三大挑戰:(1)依賴於授權不明確的來源,限制了使用、共享及衍生作品的創作;(2)靜態的數據集發布模式,阻礙了社區貢獻並削弱了數據集的持久性;(3)質量保證流程僅限於發布團隊,未能充分利用社區的專業知識。為解決這些局限,我們提出了兩項貢獻:Dynaword方法與丹麥Dynaword。Dynaword方法是一個框架,用於創建可通過社區協作持續更新的大規模開放數據集。丹麥Dynaword則是這一方法的具體實踐,驗證了其可行性並展示了潛力。丹麥Dynaword包含的詞彙量是同類發布的四倍以上,完全採用開放授權,並已獲得來自產業與研究領域的多項貢獻。該資源庫包含輕量級測試,確保數據格式、質量及文檔的規範,為社區持續貢獻與數據集演進建立了可持續的框架。
視覺標記壓縮對於大型視覺語言模型(LVLMs)高效處理高分辨率輸入至關重要。現有方法通常採用固定壓縮比率,無法適應不同複雜度的場景,往往導致不精確的剪枝,丟失信息豐富的視覺標記,從而降低模型性能。為解決這一問題,我們受人類認知啟發,引入了一種動態剪枝框架——GlimpsePrune。該框架在生成答案前,通過數據驅動的「一瞥」方式,在單次前向傳播中剪除不相關的視覺標記。此方法剪除了92.6%的視覺標記,同時在自由形式的視覺問答任務上平均完全保留了基線性能。降低的計算成本還使得微調更加有效:增強版的GlimpsePrune+在保持相似高剪枝率的同時,達到了基線性能的110%。我們的工作為構建更強大且高效的LVLMs開闢了新途徑。
擴散式大型語言模型(dLLMs)在推理和平行解碼方面實現了突破,但其在推理過程中面臨著難以承受的二次方計算複雜度和記憶體開銷。現有的快取技術通過存儲全層狀態來加速解碼,卻帶來了巨大的記憶體使用量,限制了長上下文應用的發展。我們對dLLM中注意力模式的分析揭示了跨層稀疏性的持續存在,其中關鍵詞彙在解碼步驟中保持顯著,而低相關性詞彙則始終不重要,這促使我們考慮選擇性快取淘汰。我們提出了Sparse-dLLM,這是首個無需訓練的框架,它通過延遲雙向稀疏快取將動態快取淘汰與稀疏注意力相結合。利用詞彙顯著性在步驟間的穩定性,該框架保留了關鍵詞彙,並採用注意力引導策略動態淘汰不重要的前綴/後綴條目。在LLaDA和Dream系列上的大量實驗表明,Sparse-dLLM相比於原始dLLM實現了高達10倍的吞吐量提升,同時保持了可比的性能和相似的峰值記憶體成本,在效率和效果上均超越了先前的方法。
我們推出Voxlect,這是一個利用語音基礎模型來建模全球方言與區域語言的新穎基準。具體而言,我們報告了對英語、阿拉伯語、普通話與粵語、藏語、印度語系語言、泰語、西班牙語、法語、德語、巴西葡萄牙語及意大利語中方言與區域語言變體的全面基準評估。本研究使用了來自30個公開語料庫、總計超過200萬條帶有方言信息的訓練語句。我們評估了多種廣泛使用的語音基礎模型在方言分類上的表現,並測試了這些方言模型在噪聲條件下的魯棒性,同時進行了錯誤分析,揭示了與地理連續性相一致的建模結果。除了方言分類的基準測試外,我們還展示了Voxlect所支持的幾項下游應用。特別地,我們展示了Voxlect可用於為現有語音識別數據集增添方言信息,從而實現對ASR性能跨方言變化的更細緻分析。Voxlect也被用作評估語音生成系統性能的工具。Voxlect已公開提供,採用RAIL系列許可證,可通過以下鏈接獲取:https://github.com/tiantiaf0627/voxlect。
藝術作品,尤其是繪畫的歸屬問題,一直是藝術領域中的一大難題。隨著能夠生成和分析圖像的強大人工智慧模型的出現,繪畫歸屬面臨了新的挑戰。一方面,AI模型可以創作出模仿特定畫家風格的圖像,這些圖像可能會被其他AI模型錯誤地歸屬。另一方面,AI模型可能無法正確識別真實繪畫的藝術家,導致使用者錯誤地歸屬作品。本文利用最先進的AI圖像生成和分析模型,在包含近40,000幅來自128位藝術家的繪畫的大型數據集上,對這兩個問題進行了實驗研究。結果顯示,視覺語言模型在以下兩方面的能力有限:1) 進行畫布歸屬,2) 識別AI生成的圖像。隨著使用者越來越依賴向AI模型查詢以獲取資訊,這些結果表明有必要提升視覺語言模型的能力,以可靠地執行藝術家歸屬和AI生成圖像的檢測,從而防止錯誤資訊的傳播。
文本到圖像擴散模型已徹底革新了視覺內容的生成領域,然而現行的安全機制採用統一標準,往往未能充分考慮個別使用者的偏好。這些模型忽視了由年齡、心理健康及個人信仰等因素塑造的多樣化安全邊界。為此,我們提出了個性化安全對齊(Personalized Safety Alignment, PSA)框架,該框架允許使用者對生成模型中的安全行為進行個性化控制。PSA將個性化的使用者檔案整合至擴散過程中,調整模型行為以匹配個體的安全偏好,同時保持圖像質量。我們引入了一個新數據集Sage,該數據集捕捉了使用者特定的安全偏好,並通過交叉注意力機制將這些檔案融入模型。實驗結果表明,PSA在有害內容抑制方面優於現有方法,並使生成內容更好地符合使用者約束,實現了更高的勝率(Win Rate)和通過率(Pass Rate)分數。我們的代碼、數據及模型已公開於https://torpedo2648.github.io/PSAlign/。
我們提出RoboMemory,這是一個受大腦啟發的多記憶框架,專為物理具身系統的終身學習而設計,旨在解決現實環境中的關鍵挑戰:持續學習、多模組記憶延遲、任務關聯捕捉以及閉環規劃中的無限迴圈緩解。基於認知神經科學,它整合了四個核心模組:資訊預處理器(類似丘腦)、終身具身記憶系統(類似海馬體)、閉環規劃模組(類似前額葉)以及低階執行器(類似小腦),以實現長期規劃和累積學習。作為框架的核心,終身具身記憶系統通過在空間、時間、情景和語義子模組之間進行並行更新/檢索,緩解了複雜記憶框架中的推理速度問題。它結合了動態知識圖譜(KG)和一致的架構設計,以增強記憶的一致性和可擴展性。在EmbodiedBench上的評估顯示,RoboMemory在平均成功率上比開源基準(Qwen2.5-VL-72B-Ins)高出25%,並超越閉源最先進技術(SOTA)(Claude3.5-Sonnet)5%,建立了新的SOTA。消融研究驗證了關鍵組件(批評者、空間記憶、長期記憶),而實際部署則證實了其終身學習能力,在重複任務中的成功率顯著提高。RoboMemory通過可擴展性緩解了高延遲挑戰,為在物理機器人中整合多模態記憶系統提供了基礎參考。
大型語言模型(LLMs)在配備可執行運行環境的訓練下,於軟體工程任務中取得了顯著成功,特別是在解決GitHub問題方面。然而,此類運行環境在其他領域往往不可用,尤其是在網絡安全領域,挑戰配置和執行環境通常是短暫或受限的。我們提出了Cyber-Zero,這是首個無需運行環境的框架,用於合成高質量的代理軌跡來訓練網絡安全LLMs。Cyber-Zero利用公開可用的CTF(Capture The Flag)賽後報告,並採用角色驅動的LLM模擬來逆向工程運行行為,生成真實、長期的互動序列,而無需實際環境。使用Cyber-Zero合成的軌跡,我們訓練了基於LLM的代理,在三個著名的CTF基準測試:InterCode-CTF、NYU CTF Bench和Cybench上,相較於基準模型,實現了最高13.1%的絕對性能提升。我們的最佳模型Cyber-Zero-32B,在開放權重模型中建立了新的最先進性能,匹配了DeepSeek-V3-0324和Claude-3.5-Sonnet等專有系統的能力,同時提供了更優的成本效益,並證明了無需運行環境的軌跡合成能夠有效促進最先進網絡安全代理的開發普及。
近期在密集三維重建領域的進展已帶來顯著進步,然而實現精確的統一幾何預測仍是一大挑戰。現有方法大多僅限於從輸入圖像中預測單一幾何量。然而,深度、表面法線和點雲圖等幾何量本質上是相互關聯的,孤立地估計它們往往無法確保一致性,從而限制了準確性和實際應用性。這促使我們探索一個統一框架,該框架顯式地建模不同幾何屬性之間的結構耦合,以實現聯合回歸。本文中,我們提出了Dens3R,這是一個專為聯合幾何密集預測設計的三維基礎模型,並可適應多種下游任務。Dens3R採用兩階段訓練框架,逐步構建一個既具通用性又內在不變的點雲圖表示。具體而言,我們設計了一個輕量級的共享編碼器-解碼器骨幹,並引入了位置插值的旋轉位置編碼,以在保持表達能力的同時增強對高分辨率輸入的魯棒性。通過將圖像對匹配特徵與內在不變性建模相結合,Dens3R能夠精確回歸多個幾何量,如表面法線和深度,實現從單視圖到多視圖輸入的一致幾何感知。此外,我們提出了一個後處理流程,支持幾何一致的多視圖推理。大量實驗證明了Dens3R在各種密集三維預測任務中的優越性能,並凸顯了其在更廣泛應用中的潛力。
確保充分的探索是訓練元強化學習(meta-RL)智能體以解決新環境時的核心挑戰。傳統的探索與利用困境解決方案通過注入明確的激勵機制,如隨機化、不確定性獎勵或內在獎勵,來鼓勵探索。在本研究中,我們提出假設:僅以最大化貪婪(僅利用)目標訓練的智能體,在滿足三個條件的情況下,仍能展現出湧現的探索行為:(1)重複的環境結構,即環境中存在可重複的規律性,使得過去的經驗能指導未來的選擇;(2)智能體記憶,使智能體能夠保留並利用歷史交互數據;(3)長期信用分配,即學習在足夠長的時間範圍內傳播回報,使得探索的延遲收益能影響當前決策。通過在隨機多臂老虎機和時間延展的網格世界中的實驗,我們觀察到,當結構和記憶同時存在時,以嚴格貪婪目標訓練的策略會表現出信息尋求的探索行為。我們進一步通過控制性消融實驗證明,如果環境結構或智能體記憶缺失(條件1和2),湧現的探索行為會消失。令人驚訝的是,移除長期信用分配(條件3)並不總是阻止湧現的探索——這一結果我們歸因於偽湯普森採樣效應。這些發現表明,在適當的前提條件下,探索與利用不必被視為正交目標,而是可以從統一的獎勵最大化過程中自然湧現。
测试时扩展(TTS)通过推理阶段分配额外的计算资源,提升了大型语言模型(LLMs)的性能。然而,现有研究主要探讨了TTS在单阶段任务中的应用;而现实世界中的许多问题属于多阶段复杂任务,由一系列异质子任务构成,每个子任务都需要具备特定能力的LLM。因此,我们研究了一个新颖问题:在多阶段复杂任务中的测试时计算最优扩展,旨在为每个子任务选择合适的模型并分配预算,以最大化整体性能。多阶段任务中的TTS引入了两个基本挑战:(i)模型与预算分配的组合搜索空间,加上推理的高昂成本,使得暴力搜索不切实际。(ii)跨子任务的最优模型与预算分配相互依赖,增加了计算最优搜索的复杂性。为填补这一空白,我们在六个数据集上的四项任务中进行了广泛的先导实验,得出了三条经验性见解,刻画了LLMs在多阶段复杂任务中的行为特征。基于这些见解,我们提出了AgentTTS,一个基于LLM代理的框架,它通过与执行环境的迭代反馈驱动交互,自主搜索计算最优分配。实验结果表明,AgentTTS在搜索效率上显著优于传统及其他基于LLM的基线方法,并展现出对训练集规模变化的更强鲁棒性及更高的可解释性。
在大型語言模型中,對長上下文建模的需求不斷增長,但標準自注意力機制的二次方複雜度往往成為瓶頸。儘管現有的稀疏注意力機制已提升了效率,它們仍可能面臨靜態模式或信息丟失等問題。我們引入了一種可訓練的動態掩碼稀疏注意力機制——動態掩碼注意力(Dynamic Mask Attention, DMA),它有效利用了內容感知與位置感知的稀疏性。DMA通過兩項關鍵創新實現這一目標:首先,它從值表示中動態生成內容感知的稀疏掩碼,使模型能夠自適應地識別並聚焦於關鍵信息;其次,它實施了位置感知的稀疏注意力計算,有效跳過不必要的計算區域。這種雙重稀疏設計使得模型在保留完整信息的同時,顯著降低了重要信息的計算複雜度,實現了信息保真度與計算效率之間的優異平衡。我們已通過全面實驗驗證了DMA的性能。對比研究表明,在Chinchilla縮放定律設置下,DMA在困惑度方面優於多頭注意力、滑動窗口注意力、多頭潛在注意力及原生稀疏注意力。此外,在具有挑戰性的多查詢關聯回憶任務中,DMA也展現出相較於這些方法的卓越性能與效率。關鍵在於,在一個17億參數模型的評估中,DMA無論是在標準基準性能還是極具挑戰性的“大海撈針”任務上,均顯著超越多頭注意力。這些實驗結果凸顯了其在平衡模型效率與長上下文建模能力方面的強大能力。
文本到動作(T2M)生成旨在從自然語言描述中合成出真實且語義對齊的人體動作序列。然而,現有方法面臨雙重挑戰:生成模型(如擴散模型)存在多樣性有限、錯誤累積和物理不可行性等問題,而檢索增強生成(RAG)方法則表現出擴散慣性、部分模式崩潰和異步偽影等缺陷。為解決這些限制,我們提出了ReMoMask,這是一個整合了三項關鍵創新的統一框架:1)雙向動量文本-動作模型通過動量隊列將負樣本規模與批次大小解耦,顯著提高了跨模態檢索精度;2)語義時空注意力機制在部分級融合過程中施加生物力學約束,以消除異步偽影;3)RAG-無分類器指導結合少量無條件生成以增強泛化能力。基於MoMask的RVQ-VAE,ReMoMask能夠以最少的步驟高效生成時間連貫的動作。在標準基準上的大量實驗表明,ReMoMask達到了最先進的性能,與之前的SOTA方法RAG-T2M相比,在HumanML3D和KIT-ML上的FID分數分別提高了3.88%和10.97%。代碼:https://github.com/AIGeeksGroup/ReMoMask。網站:https://aigeeksgroup.github.io/ReMoMask。
量子支持向量機面臨著由於高維量子態和硬體限制帶來的可擴展性挑戰。我們提出了一種結合類別平衡k均值蒸餾與預訓練視覺Transformer嵌入的嵌入感知量子-經典混合管道。我們的核心發現是:ViT嵌入獨特地實現了量子優勢,在Fashion-MNIST上相比經典SVM提升了高達8.02%的準確率,在MNIST上提升了4.42%,而CNN特徵則表現出性能下降。通過使用cuTensorNet進行的16量子位張量網絡模擬,我們首次系統性地證明了量子核優勢關鍵依賴於嵌入選擇,揭示了Transformer注意力機制與量子特徵空間之間的根本協同效應。這為利用現代神經架構實現可擴展的量子機器學習提供了一條實用路徑。
阿拉伯世界豐富的語言景觀中,現代標準阿拉伯語(MSA)作為正式交流的語言,與日常生活中使用的多樣化地區方言之間存在顯著差距。這種雙言現象對自然語言處理,尤其是機器翻譯,構成了巨大挑戰。本文介紹了SHAMI-MT,這是一個專門設計的雙向機器翻譯系統,旨在彌合MSA與敘利亞方言之間的溝通鴻溝。我們提出了兩個專用模型,一個用於MSA到敘利亞方言的翻譯,另一個則用於敘利亞方言到MSA的翻譯,兩者均基於最先進的AraT5v2-base-1024架構構建。這些模型在全面的Nabra數據集上進行了微調,並在MADAR語料庫的未見數據上進行了嚴格評估。我們的MSA到敘利亞方言模型在OPENAI模型GPT-4.1的評判下,獲得了4.01分(滿分5.0)的卓越平均質量分數,展示了其不僅能產生準確翻譯,還能保持方言真實性的能力。這項工作為先前服務不足的語言對提供了一個關鍵的高保真工具,推動了阿拉伯方言翻譯領域的發展,並在內容本地化、文化遺產保護及跨文化交流方面提供了重要應用。
本研究探討了家庭財富等社會經濟指標是否能在衛星影像(捕捉物理特徵)及網路文本(反映歷史/經濟敘事)中留下可復原的印記。利用非洲社區的人口與健康調查(DHS)數據,我們將Landsat影像與基於位置/年份生成的大型語言模型(LLM)文本描述配對,並結合由AI搜索代理從網路資源中檢索的文本。我們開發了一個多模態框架,通過五種管道預測家庭財富(國際財富指數):(i) 基於衛星影像的視覺模型,(ii) 僅使用位置/年份的LLM,(iii) AI代理搜索/合成網路文本,(iv) 聯合圖像-文本編碼器,(v) 所有信號的集成。該框架帶來三項貢獻。首先,融合視覺與代理/LLM文本在財富預測上優於僅使用視覺的基準(例如,在樣本外分割上的R平方值為0.77對比0.63),其中LLM內部知識比代理檢索的文本更有效,提升了跨國與跨時間泛化的穩健性。其次,我們發現部分表徵收斂:視覺/語言模態的融合嵌入呈現中等相關性(對齊後的中位餘弦相似度為0.60),暗示了物質福祉的共享潛在編碼,同時保留了互補細節,這與柏拉圖表徵假說一致。儘管僅使用LLM文本優於代理檢索數據,挑戰了我們的代理誘導新穎性假說,但在某些分割中結合代理數據帶來的微小增益,弱支持了代理收集信息引入獨特表徵結構的觀點,這些結構未被靜態LLM知識完全捕捉。第三,我們發布了一個大規模多模態數據集,包含超過60,000個DHS集群,鏈接至衛星影像、LLM生成的描述及代理檢索的文本。
大型語言模型在複雜數學推理任務中展現了顯著的能力,但在多步驟解題過程中不可避免地會產生錯誤。過程級獎勵模型(PRMs)通過在每個中間步驟提供監督和評估,顯示出極大的潛力,從而有效提升了模型的推理能力。然而,訓練有效的PRMs需要高質量的過程獎勵數據,而現有的構建此類數據的方法往往耗費人力或效率低下。本文提出了一種基於不確定性的自動化過程獎勵數據構建框架,涵蓋了PRMs的數據生成和註釋過程。此外,我們指出了多數投票和PRMs的局限性,並引入了兩種通用的不確定性感知輸出聚合方法:混合多數獎勵投票和加權獎勵頻率投票,這兩種方法結合了多數投票與PRMs的優勢。在ProcessBench、MATH和GSMPlus上的大量實驗表明,所提出的PRM數據構建框架具有高效性和有效性,並且這兩種輸出聚合方法進一步提升了多種PRMs的數學推理能力。代碼和數據將在https://github.com/Jiuzhouh/UnPRM公開提供。