每日精選AI研究論文及翻譯
大型語言模型(LLMs)已徹底革新了自然語言處理(NLP)領域,然而開源的多語言LLMs仍然稀缺,現有模型往往在語言覆蓋範圍上受限。這類模型通常優先考慮資源豐富的語言,而廣泛使用但資源匱乏的語言則常被忽視。為解決這一差距,我們推出了Babel,這是一個開源的多語言LLM,涵蓋了按使用人數排名的前25種語言,支持全球超過90%的人口,並包含許多被其他開源多語言LLMs忽視的語言。與傳統的持續預訓練方法不同,Babel通過層擴展技術增加其參數數量,從而提升了Babel的性能上限。我們推出了兩個變體:Babel-9B,專為高效推理和微調設計;以及Babel-83B,為開源多語言LLMs設立了新標準。在多語言任務上的廣泛評估顯示,其性能優於同規模的開源LLMs。此外,利用開源的監督微調數據集,Babel表現出色,其中Babel-9B-Chat在10B規模的LLMs中領先,而Babel-83B-Chat在多語言任務上設立了新標準,達到了商業模型的同等水平。
大型語言模型(LLMs)的一個致命弱點在於其傾向於產生虛構的非事實陳述。這種混合了事實與非事實的回應,對人類而言,在驗證和基於這些信息做出準確決策時構成了挑戰。為解決這一問題,我們提出了「高亮思維鏈提示法」(Highlighted Chain-of-Thought Prompting, HoT),這是一種引導LLMs生成帶有XML標籤回應的技術,這些標籤將事實與查詢中提供的信息相錨定。具體而言,給定一個輸入問題,LLMs首先會重新格式化問題,加入XML標籤以突出關鍵事實,隨後生成回應,並在引用自輸入的事實上進行高亮顯示。有趣的是,在少樣本設置下,HoT在從算術、閱讀理解到邏輯推理的17項廣泛任務上,均優於基礎的思維鏈提示法(CoT)。當要求人類驗證LLM的回應時,高亮顯示幫助時間有限的參與者更準確且高效地識別出LLM何時正確。然而,令人驚訝的是,當LLM出錯時,HoT往往會讓用戶誤以為答案是正確的。
大型語言模型在多種下游任務中展現了卓越的性能,並已廣泛應用於多個場景。為了進一步提升大型語言模型的表現,使用人工標註的偏好數據進行訓練,但這受到人類表現上限的限制。因此,提出了自我獎勵方法,即大型語言模型通過獎勵自身輸出來生成訓練數據。然而,現有的自我獎勵範式在數學推理場景中效果不佳,甚至可能導致性能下降。在本研究中,我們提出了基於過程的自我獎勵管道,該管道在自我獎勵範式中引入了長程推理、逐步的LLM-as-a-Judge以及逐步的偏好優化。我們的新範式通過迭代的基於過程的自我獎勵,成功提升了大型語言模型在多個數學推理基準上的表現,展示了自我獎勵在實現可能超越人類能力的大型語言模型推理方面的巨大潛力。
我們推出KodCode,這是一個合成數據集,旨在解決為訓練大型語言模型進行編碼時,獲取高質量、可驗證的跨難度和跨領域訓練數據的持續挑戰。現有的代碼相關資源通常無法確保覆蓋範圍的廣度(例如,從簡單的編碼任務到高級算法問題)或可驗證的正確性(例如,單元測試)。相比之下,KodCode包含通過自我驗證程序系統性驗證的問題-解決方案-測試三元組。我們的流程首先合成廣泛的編碼問題,然後生成解決方案和測試案例,並為難題分配額外的嘗試。最後,通過將問題改寫為多種格式並從推理模型(DeepSeek R1)基於測試的拒絕採樣程序中生成響應,完成訓練後數據的合成。這一流程產生了規模大、魯棒且多樣化的編碼數據集。KodCode適用於監督微調,配對的單元測試也為強化學習調優提供了巨大潛力。在編碼基準(HumanEval(+)、MBPP(+)、BigCodeBench和LiveCodeBench)上的微調實驗表明,基於KodCode微調的模型達到了最先進的性能,超越了如Qwen2.5-Coder-32B-Instruct和DeepSeek-R1-Distill-Llama-70B等模型。
我們推出GEN3C,這是一個具備精確相機控制與時間上三維一致性的生成式影片模型。現有的影片模型雖已能生成逼真影片,但往往利用的三維資訊有限,導致諸如物體突然出現或消失等不一致現象。即便實現了相機控制,其精確度也不高,因為相機參數僅作為神經網路的輸入,模型需自行推斷影片如何依賴於相機。與此不同,GEN3C由一個三維緩存引導:該緩存是通過預測種子圖像或先前生成幀的像素級深度獲得的點雲。在生成下一幀時,GEN3C以用戶提供的新相機軌跡對三維緩存進行二維渲染為條件。關鍵在於,這意味著GEN3C既無需記住先前生成的內容,也不必從相機姿態推斷圖像結構。相反,模型可以將其全部生成能力集中於先前未觀察到的區域,並將場景狀態推進至下一幀。我們的結果顯示,相比先前工作,GEN3C實現了更精確的相機控制,並在稀疏視角新視角合成中取得了領先的成果,即便在駕駛場景和單目動態影片等挑戰性設置下也是如此。最佳效果請觀看影片。訪問我們的網頁了解更多!https://research.nvidia.com/labs/toronto-ai/GEN3C/
視覺嵌入模型在零樣本任務(如視覺檢索和分類)中表現出色。然而,這些模型無法用於包含模糊性或需要用戶指令的任務。這些任務需要多模態嵌入模型,該模型能夠輸出結合視覺和自然語言輸入的嵌入。現有的基於CLIP的方法獨立地嵌入圖像和文本,然後融合結果。我們發現這種方法導致模態間的交互較弱,且用戶對表示的控制力不足。我們介紹了ABC,這是一個開源的多模態嵌入模型,它使用視覺-語言模型骨幹來深度整合圖像特徵與自然語言指令。ABC在MSCOCO圖像到文本檢索中實現了最佳尺寸性能,並在Massive Multimodal Embedding Benchmark的分類和視覺問答任務中表現最佳。憑藉強統一的視覺-語言表示,ABC能夠利用自然語言解決細微且可能模糊的視覺檢索問題。為了評估這一能力,我們設計了CtrlBench,這是一個需要交織文本指令與圖像內容以進行正確檢索的基準。ABC通過提供高質量的表示和靈活的自然語言控制,推動了多模態嵌入的發展。我們的模型和數據集可在項目頁面獲取。
將先進大型語言模型的指令遵循能力通過精選子集蒸餾至較小模型,已成為模型訓練的主流方法。現有的合成指令數據選擇策略主要依賴單一維度信號(即獎勵分數、模型困惑度),未能捕捉跨領域指令遵循的複雜性。因此,我們探索更為多樣的信號以全面捕獲指令-響應對的特徵,並提出了三種基礎指標,這些指標利用多LLM智慧,基於(1)多樣LLM響應和(2)獎勵模型評估。在基礎指標之上,我們提出了CrowdSelect,這是一種集成指標,結合了基於聚類的方法以保持響應多樣性。我們的全面實驗表明,這些基礎指標在MT-bench和Arena-Hard上的四個基礎模型上均能持續提升性能。CrowdSelect高效整合了所有指標,在Full和LoRA微調中均達到了最先進的性能,在Llama-3.2-3b-instruct模型上,Arena-Hard提升了4.81%,MT-bench提升了11.1%。我們希望這些發現能為未來相關研究提供寶貴的見解。代碼已開源於https://github.com/listentm/crowdselect。
視覺語言模型(VLMs)在視覺定位任務中展現了令人印象深刻的能力。然而,其在醫學領域的有效性,尤其是在醫學影像中的異常檢測與定位方面,仍未被充分探索。一個主要挑戰在於醫學術語的複雜性和抽象性,這使得直接將病理異常術語與其對應的視覺特徵關聯起來變得困難。在本研究中,我們提出了一種新穎的方法,通過利用分解的醫學知識來提升VLM在醫學異常檢測與定位中的表現。我們不直接提示模型識別特定異常,而是專注於將醫學概念分解為基本屬性和常見視覺模式。這一策略促進了文本描述與視覺特徵之間更強的對齊,從而提高了醫學影像中異常的識別與定位能力。我們在0.23B的Florence-2基礎模型上評估了我們的方法,結果顯示其在異常定位任務中與顯著更大的7B LLaVA基於醫學VLMs的表現相當,儘管僅使用了此類模型訓練數據的1.5%。實驗結果還展示了我們的方法在已知和先前未見異常中的有效性,表明其具有強大的泛化能力。
在邊緣設備上部署大規模語言模型面臨著固有的挑戰,如高計算需求、能源消耗以及潛在的數據隱私風險。本文介紹了針對這些限制直接應對的Shakti小型語言模型(SLMs)系列——Shakti-100M、Shakti-250M和Shakti-500M。通過結合高效的架構、量化技術及負責任的人工智能原則,Shakti系列為智能手機、智能家電、物聯網系統等提供了設備端智能。我們深入探討了其設計理念、訓練流程,以及在通用任務(如MMLU、Hellaswag)和專業領域(醫療、金融、法律)上的基準性能。研究結果表明,經過精心設計和微調的緊湊模型,在實際的邊緣AI場景中不僅能滿足甚至常常超越預期。
擴散模型的部分成功源於其執行迭代精煉的能力,即在生成過程中反覆修正輸出。然而,現代掩碼離散擴散模型缺乏這一能力:一旦生成一個標記,即使它引入了錯誤,也無法再次更新。在此,我們通過引入重掩碼擴散模型(ReMDM)採樣器來解決這一限制,這是一種可以以原則性方式應用於預訓練掩碼擴散模型的方法,並且源自於具有自定義重掩碼反向過程的離散擴散模型。最有趣的是,ReMDM賦予離散擴散模型一種推理時計算規模化的形式。通過增加採樣步驟的數量,ReMDM生成的自然語言輸出接近自回歸模型的質量,而在計算預算有限時,ReMDM能更好地保持質量。ReMDM還提高了掩碼擴散模型在離散化圖像上的樣本質量,並且在分子設計等科學領域中,ReMDM促進了擴散指導,並相對於經典掩碼和均勻噪聲擴散,推動了可控性的帕累托前沿。我們在項目頁面上提供了代碼以及一篇博客文章:https://remdm.github.io。
文本豐富的圖知識庫(TG-KBs)在回答查詢時提供文本和結構知識方面變得日益重要。然而,當前的檢索方法往往孤立地檢索這兩類知識,未考慮它們之間的相互強化,甚至有些混合方法在鄰域聚合後完全繞過結構檢索。為填補這一空白,我們提出了一種結構與文本混合檢索方法(MoR),通過規劃-推理-組織框架來檢索這兩類知識。在規劃階段,MoR生成描述回答查詢邏輯的文本規劃圖。依據規劃圖,在推理階段,MoR交織結構遍歷與文本匹配,從TG-KBs中獲取候選項。在組織階段,MoR進一步根據候選項的結構軌跡對其進行重新排序。大量實驗證明了MoR在協調結構與文本檢索方面的優越性,並揭示了不同查詢邏輯下檢索性能的不均衡性以及整合結構軌跡對候選項重新排序的益處。我們的代碼可在https://github.com/Yoega/MoR獲取。
詞級質量評估(QE)旨在檢測機器翻譯中的錯誤片段,這可以引導並促進人工後編輯。雖然詞級QE系統的準確性已被廣泛評估,但其可用性以及對人工後編輯速度、質量和編輯選擇的下游影響仍缺乏深入研究。我們的QE4PE研究在涉及42位專業後編輯的兩種翻譯方向的實際場景中,探討了詞級QE對機器翻譯(MT)後編輯的影響。我們比較了四種錯誤片段高亮模式,包括基於監督和基於不確定性的詞級QE方法,用於識別最先進的神經MT模型輸出中的潛在錯誤。後編輯的工作量和生產力通過行為日誌進行估算,而質量改進則通過詞級和段落級的人工註釋進行評估。我們發現,領域、語言和編輯速度是決定高亮效果的重要因素,人工製作和自動化QE高亮之間的微小差異凸顯了專業工作流程中準確性和可用性之間的差距。
對話式助手通常需要一種問題重寫算法,該算法利用過往互動的子集來為用戶的問題或請求提供更為精確(準確)的答案。然而,具體的重寫方法往往取決於對話助手所支持的用例和應用特定任務,以及其他限制條件。在本文中,我們系統地研究了兩種不同的方法,分別稱為重寫和融合,並將其應用於兩種根本不同的生成任務,包括一個文本到文本的生成任務和一個多模態生成任務,後者以文本為輸入並生成可視化或數據表來回答用戶的問題。我們的結果表明,具體採用重寫還是融合方法高度依賴於底層的用例和生成任務。特別是,我們發現對於對話式問答助手,查詢重寫方法表現最佳,而對於基於用戶與助手對話生成可視化和數據表的數據分析助手,融合方法效果最好。值得注意的是,我們針對數據分析助手的用例探索了兩個數據集,分別對應短對話和長對話,我們發現查詢融合始終表現更佳,而對於基於文本的對話式問答,查詢重寫方法表現最佳。
工具學習旨在通過多樣化的工具來增強大型語言模型(LLMs),使其能夠作為代理解決實際任務。由於使用工具的LLMs的上下文長度有限,採用信息檢索(IR)模型從大型工具集中選擇有用工具是一個關鍵的初始步驟。然而,IR模型在工具檢索任務中的表現仍未得到充分探索且不明確。大多數工具使用基準通過手動預註釋每個任務的一小部分相關工具來簡化這一步驟,這與現實場景相去甚遠。在本文中,我們提出了ToolRet,這是一個包含7.6k多樣化檢索任務的異構工具檢索基準,以及一個從現有數據集中收集的43k工具庫。我們在ToolRet上對六種類型的模型進行了基準測試。令人驚訝的是,即使在傳統IR基準中表現強勁的模型,在ToolRet上也表現不佳。這種低檢索質量降低了使用工具的LLMs的任務通過率。作為進一步的步驟,我們貢獻了一個包含超過200k實例的大規模訓練數據集,這大大優化了IR模型的工具檢索能力。
近期機器人操作技術的進步,得益於在多元環境中收集的大規模數據集。傳統上,這些數據集用於集中式訓練機器人操作策略,但這種方式在可擴展性、適應性和數據隱私方面引發了擔憂。雖然聯邦學習能夠實現去中心化且保護隱私的訓練,但其在機器人操作領域的應用仍鮮有探索。我們提出了FLAME(跨操作環境的聯邦學習),這是首個專為機器人操作中的聯邦學習設計的基準測試。FLAME包含:(i) 一組超過160,000次專家示範的大規模數據集,涵蓋多種模擬環境下的操作任務;(ii) 一個在聯邦設置下進行機器人策略學習的訓練與評估框架。我們在FLAME中評估了標準的聯邦學習算法,展示了它們在分佈式策略學習中的潛力,並突出了關鍵挑戰。我們的基準測試為可擴展、適應性強且注重隱私的機器人學習奠定了基礎。
近期生成式人工智慧的進步,促使大型語言模型(LLMs)在軟體工程領域得到廣泛應用,解決了許多長期存在的挑戰。然而,針對軟體安全中至關重要的軟體漏洞檢測(SVD)能力,目前尚缺乏全面的研究。現有研究主要集中於使用C/C++資料集來評估LLMs,通常僅探討提示工程、指令微調和序列分類微調這三種策略中的一兩種,針對開源LLMs進行評估。因此,關於不同LLMs在檢測多種程式語言漏洞方面的有效性,存在顯著的知識缺口。為填補這一缺口,我們進行了一項全面的實證研究,評估LLMs在SVD任務上的表現。我們編制了一個包含8,260個Python漏洞函數、7,505個Java漏洞函數和28,983個JavaScript漏洞函數的綜合資料集。我們採用多種方法評估了五個開源LLMs,包括提示工程、指令微調和序列分類微調,並將這些LLMs與五個經過微調的小型語言模型及兩個開源靜態應用安全測試工具進行對比。此外,我們探索了兩種提升LLMs在SVD上表現的途徑:a) 資料角度:使用下采樣的平衡資料集重新訓練模型;b) 模型角度:研究結合多個LLMs預測的集成學習方法。我們全面的實驗表明,SVD對LLMs而言仍是一項具有挑戰性的任務。本研究深入探討了LLMs在SVD中的角色,並為未來利用生成式人工智慧提升軟體安全實踐提供了實用的見解。
在多機器人導航於自動化倉庫等共享空間中,多智能體協調至關重要。在機器人流量密集的區域,局部協調方法可能無法找到無死鎖的解決方案。在這些情況下,適宜由中央單元生成全局調度,決定機器人的通行順序。然而,此類集中式協調方法的運行時間會隨著問題規模的增大而顯著增加。本文提出利用圖神經網路變分自編碼器(GNN-VAE)來大規模解決多智能體協調問題,其速度遠超集中式優化。我們將協調問題表述為圖問題,並使用混合整數線性規劃(MILP)求解器收集地面真值數據。在訓練過程中,我們的學習框架將圖問題的高質量解編碼到潛在空間中。在推理時,從採樣的潛在變量中解碼出解樣本,並選擇成本最低的樣本進行協調。最終,選擇性能指標最高的可行方案進行部署。通過設計,我們的GNN-VAE框架返回的解始終遵守所考慮協調問題的約束。數值結果表明,我們在小規模問題上訓練的方法,即使對於擁有250個機器人的大規模問題,也能實現高質量解,且速度遠超其他基線。項目頁面:https://mengyuest.github.io/gnn-vae-coord
生成逼真的模擬對於自動駕駛和人機互動等自主系統應用至關重要。然而,當前的駕駛模擬器在生成可控、多樣且符合規則的道路參與者行為方面仍存在困難:基於規則的模型無法產生多樣化的行為且需要精心調校,而基於學習的方法雖能從數據中模仿策略,卻未明確設計以遵循規則。此外,現實世界的數據集本質上是“單一結果”的,這使得學習方法難以生成多樣化的行為。本文中,我們利用信號時序邏輯(STL)和擴散模型來學習可控、多樣且具規則意識的策略。我們首先在真實世界數據上校準STL,然後使用軌跡優化生成多樣的合成數據,最後在增強的數據集上學習修正後的擴散策略。我們在NuScenes數據集上進行測試,與其他基線方法相比,我們的方法能夠生成最多樣化的合規軌跡,且運行時間僅為次優方法的1/17。在閉環測試中,我們的方法達到了最高的多樣性、規則滿足率以及最低的碰撞率。我們的方法能夠根據不同的STL參數在測試中生成多樣化的特徵。在人機相遇場景的案例研究中,我們的方法能夠生成多樣且接近理想軌跡的結果。註釋工具、增強數據集及代碼可在https://github.com/mengyuest/pSTL-diffusion-policy獲取。
本文介紹了CognitiveDrone,這是一種專為需要高級認知能力的複雜無人機(UAV)任務量身定制的新型視覺-語言-動作(VLA)模型。該模型基於包含超過8,000條模擬飛行軌跡的數據集進行訓練,涵蓋三個關鍵類別——人類識別、符號理解與推理——並根據第一人稱視覺輸入和文本指令生成實時4D動作命令。為進一步提升在複雜場景中的表現,我們提出了CognitiveDrone-R1,該版本整合了額外的視覺-語言模型(VLM)推理模塊,以在高頻控制前簡化任務指令。使用我們開源的基準測試CognitiveDroneBench進行的實驗評估顯示,儘管以競速為導向的模型(RaceVLA)的總體成功率為31.3%,但基礎版CognitiveDrone模型達到了59.6%,而CognitiveDrone-R1則實現了77.2%的成功率。這些結果表明,在關鍵認知任務中,性能提升高達30%,突顯了將高級推理能力融入無人機控制系統的有效性。我們的貢獻包括開發了一種用於無人機控制的先進VLA模型,並引入了首個專門用於評估無人機操作中認知任務的基準測試。完整資源庫可在cognitivedrone.github.io獲取。
在瑞士,法律翻譯具有獨特的重要性,這源於該國的四種官方語言以及對多語種法律文件的要求。然而,這一過程傳統上依賴於既需具備法律專業知識又需精通翻譯技能的專業人士——這造成了瓶頸,影響了有效獲取司法公正的途徑。為應對這一挑戰,我們推出了SwiLTra-Bench,這是一個包含超過18萬對瑞士法律翻譯對的全面多語種基準,涵蓋了所有瑞士語言及英語的法律、摘要和新聞稿,旨在評估基於大型語言模型(LLM)的翻譯系統。我們的系統性評估顯示,前沿模型在所有文件類型上均展現出卓越的翻譯性能,而專門的翻譯系統在法律文本上表現尤為突出,但在摘要翻譯上則稍顯遜色。通過嚴格的測試和人類專家驗證,我們證實,儘管對開源SLM進行微調能顯著提升其翻譯質量,但它們仍落後於如Claude-3.5-Sonnet等最佳零樣本提示的前沿模型。此外,我們還介紹了SwiLTra-Judge,這是一個與人類專家評估最為契合的專用LLM評估系統。
自動駕駛車輛(AVs)已進入商業化階段,但其在與人類駕駛車輛(HVs)互動及表達意圖方面的能力仍顯不足,這在實際交互中帶來了挑戰。近期大型語言模型(LLMs)的進展實現了雙向人機溝通,然而,推理速度慢與實時決策需求之間的矛盾,對實際部署構成了挑戰。為解決這些問題,本文提出了一種並行的執行者-推理者框架,旨在實現多場景下AV與HV之間明確的雙向互動。首先,通過在訓練過程中促進LLM驅動的推理者與異構模擬HVs的互動,建立了一個被稱為執行者的互動記憶數據庫。隨後,通過引入記憶分區模塊和雙層記憶檢索模塊,顯著增強了執行者處理異構HVs的能力。消融研究及與其他決策方法的比較表明,所提出的執行者-推理者框架顯著提升了安全性和效率。最後,結合推理者推理得出的外部人機界面(eHMI)信息與從執行者檢索到的可行行動方案,在多場景實地互動中驗證了所提執行者-推理者框架的有效性。我們的代碼可在https://github.com/FanGShiYuu/Actor-Reasoner獲取。