每日精選AI研究論文及翻譯
擴大大型語言模型在測試時的計算資源,已展現出在推理基準測試上的卓越表現。然而,現有的測試規模評估強烈假設推理系統應對任何提出的問題都給出答案。這忽略了模型對其答案是否自信,以及是否總是適合提供回應的考量。為解決這些問題,我們在推理過程中提取置信度分數,用於閾值化模型回應。我們發現,在推理時增加計算預算不僅幫助模型更正確地回答更多問題,還提高了對正確回應的信心。接著,我們通過考慮非零回應風險的設定,擴展了當前評估中零風險回應的範式,並建議在這些設定下報告評估結果的方法。
現有的端到端語音大語言模型(LLMs)通常依賴大規模的註釋數據進行訓練,而數據高效的訓練方法尚未深入探討。我們聚焦於語音與文本之間的兩個基本問題:表示空間的差距和序列長度不一致性。我們提出了Soundwave,它利用一種高效的訓練策略和新穎的架構來解決這些問題。結果顯示,Soundwave在語音翻譯和AIR-Bench語音任務上超越了先進的Qwen2-Audio,且僅使用了五十分之一的訓練數據。進一步分析表明,Soundwave在對話中仍能保持其智能。該項目可在https://github.com/FreedomIntelligence/Soundwave 獲取。
近期一系列研究致力於解決將符號序列壓縮為更短的實值向量序列的問題,這些向量序列可作為輸入,替代符號嵌入或鍵值快取。這些方法能夠減少現有語言模型中的計算量。儘管依賴於強大的模型作為編碼器,可實現的最大無損壓縮比通常不超過十倍。這一現象極為引人注目,因為理論上,即使對於16位精度和適中的向量大小,大型實值向量的最大信息容量也遠超現有壓縮率。在本研究中,我們通過將編碼器替換為逐樣本優化程序,探索了壓縮的極限。我們展示了壓縮比高達1500倍的向量存在,這凸顯了現有解決方案與實際可達方案之間兩個數量級的差距。此外,我們通過實證表明,壓縮極限並非由輸入長度決定,而是由需要減少的資訊不確定性所決定,即該序列在無任何條件下的交叉熵損失。所獲得的極限揭示了輸入嵌入的理論容量與其實際利用之間的顯著差距,表明模型設計中存在著巨大的優化空間。
隨著視頻生成基礎模型的持續發展,其應用領域正不斷拓展,而主體一致的視頻生成仍處於探索階段。我們將此稱為「主體到視頻」(Subject-to-Video),即從參考圖像中提取主體元素,並通過文本指令生成與主體一致的視頻。我們認為,主體到視頻的核心在於平衡文本與圖像的雙模態提示,從而深度且同步地對齊文本與視覺內容。為此,我們提出了Phantom,一個適用於單一及多主體參考的統一視頻生成框架。基於現有的文本到視頻和圖像到視頻架構,我們重新設計了聯合文本-圖像注入模型,並通過文本-圖像-視頻三元組數據驅動其學習跨模態對齊。特別地,我們在人物生成中強調主體一致性,涵蓋了現有的ID保持視頻生成,同時提供了更優越的性能。項目主頁請訪問:https://phantom-video.github.io/Phantom/。
我們推出Magma,這是一個基礎模型,專為數位與物理世界中的多模態AI代理任務而設計。Magma是視覺語言(VL)模型的重要延伸,不僅保留了後者的VL理解能力(言語智能),還具備了在視覺空間世界中規劃與行動的能力(時空智能),並能完成從UI導航到機器人操作等一系列代理任務。為了賦予這些代理能力,Magma在大量異質數據集上進行了預訓練,這些數據集涵蓋了圖像、視頻乃至機器人數據,其中圖像中的可操作視覺對象(如GUI中的可點擊按鈕)通過Set-of-Mark(SoM)標記以實現動作定位,而視頻中的物體運動(如人手或機械臂的軌跡)則通過Trace-of-Mark(ToM)標記以支持動作規劃。大量實驗表明,SoM與ToM達到了極佳的協同效應,促進了Magma模型時空智能的獲取,這對於如圖1所示的多種任務至關重要。特別地,Magma在UI導航和機器人操作任務上創造了新的最優成績,超越了以往專為這些任務定制的模型。在圖像和視頻相關的多模態任務上,Magma也優於那些在更大數據集上訓練的流行大型多模態模型。我們公開了模型與代碼,以確保可重現性,詳見https://microsoft.github.io/Magma。
擴散模型已成為建模離散類別數據時,自回歸模型的一種有前景的替代方案。然而,直接在離散數據空間上運作的擴散模型並未充分利用迭代精煉的優勢,因為信號在離散狀態間的轉換過程中會丟失。現有的針對離散數據的連續擴散模型與離散方法相比性能有限,且兩者之間不明確的聯繫限制了離散數據擴散模型的發展。在本研究中,我們提出了一種用於語言建模的連續擴散模型,該模型融合了底層類別分佈的幾何特性。我們建立了離散擴散與統計流形上連續流動之間的聯繫,並基於此類比,引入了一種簡化的擴散過程設計,該設計推廣了先前的離散擴散模型。我們進一步提出了一種基於徑向對稱性的無模擬訓練框架,以及一種應對流形高維度的簡單技術。在語言建模基準測試及其他模態上的全面實驗表明,我們的方法超越了現有的離散擴散模型,並接近自回歸模型的性能。代碼可在https://github.com/harryjo97/RDLM{https://github.com/harryjo97/RDLM}獲取。
近期,多模态大型语言模型(MLLMs)虽取得了显著成就,但在部署时却面临诸多挑战,包括其二次方的计算复杂度、不断增长的键值缓存需求以及对独立视觉编码器的依赖。为此,我们提出了mmMamba框架,旨在通过利用适度学术计算资源,从现有MLLMs进行渐进式蒸馏,开发出线性复杂度的原生多模态状态空间模型。我们的方法能够直接将训练好的仅解码器MLLMs转换为线性复杂度架构,而无需预训练的基于RNN的LLM或视觉编码器。我们提出了一种种子策略,从已训练的Transformer中雕琢出Mamba,并设计了三阶段蒸馏方案,有效将Transformer的知识迁移至Mamba,同时保留多模态能力。此外,我们的方法还支持灵活的混合架构,结合Transformer与Mamba层,实现可定制的效率与性能权衡。基于Transformer的仅解码器模型HoVLE蒸馏而来的mmMamba-linear,在与现有线性和二次方复杂度视觉语言模型(VLMs)的竞争中表现优异,而mmMamba-hybrid则进一步显著提升性能,接近HoVLE的水平。在处理103K个令牌时,mmMamba-linear相比HoVLE实现了20.6倍的加速和75.8%的GPU内存节省,而mmMamba-hybrid则达到了13.5倍的加速和60.2%的内存节约。代码与模型已发布于https://github.com/hustvl/mmMamba。
理解人類偏好對於改進基礎模型和構建個性化AI系統至關重要。然而,偏好本質上具有多樣性和複雜性,這使得傳統的獎勵模型難以全面捕捉其範圍。雖然細粒度的偏好數據有所幫助,但收集這些數據成本高昂且難以擴展。本文介紹了一種新方法——分解獎勵模型(DRMs),它能夠從二元比較中提取多樣的人類偏好,而無需細粒度的註釋。我們的核心洞見是將人類偏好表示為向量,並使用主成分分析(PCA)進行分析。通過構建偏好與拒絕回應之間的嵌入差異數據集,DRMs識別出捕捉不同偏好方面的正交基向量。這些分解後的獎勵可以靈活組合,以滿足不同用戶需求,提供了一種可解釋且可擴展的替代方案,相較於傳統獎勵模型。我們證明,DRMs能有效提取有意義的偏好維度(如幫助性、安全性、幽默感),並能適應新用戶而無需額外訓練。我們的結果凸顯了DRMs作為個性化和可解釋大語言模型對齊的強大框架。
與將先前詞元壓縮為單一隱藏狀態的RNN不同,Transformer能夠直接關注所有先前的詞元。然而,標準的Transformer僅使用緊鄰前一層的表徵。本文中,我們展示了這種設計選擇會導致表徵崩潰,並造成次優性能。為解決這一問題,我們引入了層集成記憶(LIMe),這是一種簡單而強大的方法,在保持模型整體記憶佔用量的同時,通過允許訪問早期層的隱藏狀態來擴展其表徵能力。通過在各種架構和不同查找機制上的廣泛實驗,我們證明了在廣泛任務上的一致性能提升。此外,我們對學習到的表徵動態的分析以及對深度電路的探索揭示了LIMe如何跨層整合信息,為未來研究指出了有前景的方向。
基於多模態金融數據微調的大型語言模型(LLMs)在各種金融任務中展現了令人印象深刻的推理能力。然而,在互動金融市場(如交易)中,面對多步驟、目標導向的場景時,這些模型往往表現不佳,這類場景需要複雜的代理方法來提升決策質量。為此,我們提出了FLAG-Trader,這是一個統一架構,將語言處理(通過LLMs)與基於梯度的強化學習(RL)策略優化相結合,其中部分微調的LLM作為策略網絡,既利用預訓練知識,又通過參數高效的微調適應金融領域。通過由交易獎勵驅動的策略梯度優化,我們的框架不僅提升了LLM在交易中的表現,還改善了其他金融領域任務的結果。我們提供了廣泛的實證證據來驗證這些改進。
空間智能是具身人工智慧的關鍵組成部分,它促使機器人理解並與其環境互動。儘管近期進展提升了視覺語言模型(VLMs)感知物體位置和位置關係的能力,但它們仍缺乏精確理解物體朝向的能力——這對於涉及精細操作的任務至關重要。解決這一限制不僅需要幾何推理,還需要一種表達力強且直觀的表示朝向的方式。在此背景下,我們提出自然語言比規範框架提供了更靈活的表示空間,使其特別適合於遵循指令的機器人系統。本文中,我們引入了語義朝向的概念,它使用自然語言以無參考框架的方式定義物體朝向(例如,USB的「插入」方向或刀具的「手柄」方向)。為支持這一概念,我們構建了OrienText300K,這是一個大規模的三維模型數據集,其中標註了將幾何理解與功能語義相聯繫的語義朝向。通過將語義朝向整合到VLM系統中,我們使機器人能夠生成同時滿足位置和朝向約束的操作動作。在模擬和現實世界中的大量實驗表明,我們的方法顯著提升了機器人的操作能力,例如在Open6DOR上達到48.7%的準確率,在SIMPLER上達到74.9%的準確率。
在實際應用中部署大型語言模型(LLMs)需要強大的安全防護模型來檢測和阻擋有害的使用者提示。雖然大型安全防護模型表現出色,但其計算成本相當高。為此,通常使用較小的蒸餾模型,但這些模型在「困難」樣本上往往表現不佳,而這些樣本正是大型模型能準確預測的。我們觀察到,許多輸入可以由較小模型可靠處理,僅有少部分需要大型模型的能力。基於此,我們提出了SafeRoute,一種二元路由器,用於區分困難樣本與簡單樣本。我們的方法選擇性地將大型安全防護模型應用於路由器認為困難的數據上,相比僅使用大型安全防護模型,在保持準確性的同時提高了效率。在多個基準數據集上的實驗結果表明,我們的適應性模型選擇顯著改善了計算成本與安全性能之間的權衡,超越了相關基線方法。
大型語言模型(LLMs)通過訓練時的規模擴展實現了卓越的性能,而測試時的規模擴展則進一步增強了它們在推理過程中進行有效推理的能力。然而,隨著推理規模的增大,現有的測試時規模擴展方法會受到累積歷史信息的影響,這不僅浪費了計算資源,還干擾了有效推理。為了解決這一問題,我們觀察到複雜的推理進程通常是通過解決一系列獨立的子問題來實現的,每個子問題都是自包含且可驗證的。這些子問題本質上是原子問題,主要依賴於其當前狀態而非累積的歷史,類似於馬爾可夫過程中的無記憶轉換。基於這一觀察,我們提出了「思維原子」(Atom of Thoughts, AoT),其中推理過程中的每個狀態轉換包括將當前問題分解為基於依賴的有向無環圖,並收縮其子問題,形成一個新的原子問題狀態。這種迭代的分解-收縮過程持續進行,直到達到可直接解決的原子問題,自然實現了問題狀態之間的馬爾可夫轉換。此外,這些原子問題可以無縫集成到現有的測試時規模擴展方法中,使AoT能夠作為插件增強來提升推理能力。在六個基準測試上的實驗證明了AoT作為獨立框架和插件增強的有效性。值得注意的是,在HotpotQA上,當應用於gpt-4o-mini時,AoT達到了80.6%的F1分數,超越了o3-mini 3.4%和DeepSeek-R1 10.6%。代碼將在https://github.com/qixucen/atom 上提供。
解決複雜的推理任務可能涉及視覺理解、領域知識檢索、數值計算以及多步驟推理。現有方法通過外部工具增強大型語言模型(LLMs),但這些方法僅限於特定領域、工具類型有限或需要額外的訓練數據。本文介紹了OctoTools,這是一個無需訓練、用戶友好且易於擴展的開源代理框架,旨在應對跨多個領域的複雜推理任務。OctoTools引入了標準化的工具卡片來封裝工具功能,一個用於高層次和低層次規劃的規劃器,以及一個執行工具使用的執行器。我們在16個多樣化任務(包括MathVista、MMLU-Pro、MedQA和GAIA-Text)上驗證了OctoTools的通用性,平均準確率比GPT-4o提升了9.3%。此外,在提供相同工具集的情況下,OctoTools在AutoGen、GPT-Functions和LangChain上的表現提升了高達10.6%。通過全面的分析和消融實驗,OctoTools在任務規劃、有效工具使用以及多步驟問題解決方面展現了顯著優勢。
在對大量圖像-文本對進行預訓練後,對比式語言-圖像預訓練(CLIP)在多種基準測試中展現出優異的性能。然而,仍有大量非配對數據,如多模態交錯文檔,在視覺-語言表徵學習中未被充分利用。為充分挖掘這些未配對文檔的潛力,我們首先建立了一個現實世界數據提取流程,以獲取高質量的圖像和文本。隨後,我們設計了一種分層檢索方法,高效地將每幅圖像與多個語義相關的真實文本關聯起來。為了進一步增強細粒度的視覺信息,我們提出了一個圖像語義增強生成模塊,用於合成文本的生成。此外,我們採用語義平衡採樣策略來提升數據集的多樣性,從而更好地學習長尾概念。基於這些創新,我們構建了RealSyn數據集,該數據集結合了真實與合成文本,提供三種規模:1500萬、3000萬和1億。大量實驗證明,RealSyn有效推動了視覺-語言表徵學習的進步,並展現出強大的擴展性。基於RealSyn預訓練的模型在多個下游任務中達到了最先進的性能。為促進未來研究,RealSyn數據集及預訓練模型權重已發佈於https://github.com/deepglint/RealSyn。
大型語言模型(LLMs)中測試時縮放技術的出現,以OpenAI的o1系列為代表,通過在推理過程中調整計算資源分配,顯著提升了模型的推理能力。儘管後續模型如QwQ、Deepseek-R1(R1)和LIMO複製了這些進步,但這些模型是否真正具備測試時縮放能力仍未被充分探討。本研究表明,這些類似o1的模型在更長的思維鏈(CoTs)下並未持續提升準確率;事實上,對於同一問題,正確的解決方案往往比錯誤的更短。進一步研究發現,這一現象與模型的自我修正能力密切相關——更長的思維鏈包含更多的自我修正,這通常會導致性能下降。我們隨後在QwQ、R1和LIMO上比較了順序與並行縮放策略,發現並行縮放能實現更好的覆蓋率和可擴展性。基於這些洞察,我們提出了最短多數投票法,該方法結合了並行縮放策略與思維鏈長度特性,相比傳統的多數投票方法,顯著提升了模型的測試時可擴展性。
儘管大型語言模型(LLMs)在微調後能良好適應下游任務,這種適應性往往會犧牲提示的穩健性,因為即使提示的微小變化也可能顯著降低模型表現。為解決此問題,我們提出了提示無關微調(Prompt-Agnostic Fine-Tuning, PAFT),這是一種簡單而有效的方法,能在微調過程中動態調整提示。此方法促使模型學習任務的基礎原則,而非過度擬合特定的提示表述。PAFT分為兩個階段:首先,構建一組多樣且有意義的合成候選提示;其次,在微調過程中,從這組提示中隨機抽樣,以創建動態的訓練輸入。跨多種數據集和LLMs的廣泛實驗表明,使用PAFT訓練的模型在面對各種提示(包括未見過的提示)時,展現出強大的穩健性和泛化能力。這種增強的穩健性不僅提升了模型表現和推理速度,同時保持了訓練效率。消融研究進一步證實了PAFT的有效性。
近年來,利用大型語言模型(LLMs)從文本描述生成符號化世界模型的興趣日益增長。儘管LLMs在世界建模的背景下已被廣泛探索,先前的研究仍面臨多項挑戰,包括評估的隨機性、對間接指標的依賴以及有限的領域範圍。為解決這些限制,我們引入了一個基於規劃領域定義語言(PDDL)的新基準——Text2World,該基準涵蓋數百個多樣化的領域,並採用多準則、基於執行的指標進行更為穩健的評估。我們使用Text2World對現有的LLMs進行基準測試,發現通過大規模強化學習訓練的推理模型表現優於其他模型。然而,即便是表現最佳的模型,在世界建模方面仍顯示出有限的能力。基於這些洞察,我們探討了多種有潛力的策略來增強LLMs的世界建模能力,包括測試時擴展、代理訓練等。我們希望Text2World能成為一項關鍵資源,為未來利用LLMs作為世界模型的研究奠定基礎。項目頁面可訪問:https://text-to-world.github.io/。
基於Transformer的大型語言模型(LLMs)在長上下文生成中展現出令人印象深刻的性能。擴展上下文長度已使LLMs在推理過程中的記憶體佔用不成比例地轉移到鍵值快取(KV cache)上。本文提出HEADINFER,它將KV cache卸載至CPU RAM,同時避免在GPU上完全儲存任何Transformer層的KV cache。HEADINFER採用細粒度的、基於注意力頭的卸載策略,僅在GPU上保留選擇性的注意力頭KV cache,並動態計算注意力輸出。通過屋頂線分析,我們證明HEADINFER在保持計算效率的同時,顯著減少了記憶體佔用。我們在Llama-3-8B模型上對HEADINFER進行了評估,使用100萬個token的序列,將KV cache的GPU記憶體佔用從128 GB減少到1 GB,總GPU記憶體使用量從207 GB減少到17 GB,相比於BF16基準推理實現了92%的減少。值得注意的是,HEADINFER使得在單個配備24GB記憶體的消費級GPU(例如NVIDIA RTX 4090)上,無需近似方法即可進行4百萬個token的8B模型推理。
我們提出了多路動態密集連接(MUDD),這是一種簡單而有效的方法,旨在解決殘差連接的局限性並增強Transformer中的跨層信息流。與現有的使用靜態共享連接權重的密集連接方法不同,MUDD根據每個序列位置的隱藏狀態以及Transformer塊中每個解耦輸入流(查詢、鍵、值或殘差)動態生成連接權重。MUDD連接可以無縫集成到任何Transformer架構中,形成MUDDFormer。大量實驗表明,MUDDFormer在各種模型架構和規模的語言建模任務中顯著優於傳統Transformer,達到了使用1.8倍至2.4倍計算資源訓練的Transformer的性能。值得注意的是,MUDDPythia-2.8B在預訓練困惑度和下游任務中與Pythia-6.9B相當,甚至在五樣本設置中可與Pythia-12B匹敵,而僅增加了0.23%的參數和0.4%的計算量。JAX和PyTorch的代碼及預訓練模型可在https://github.com/Caiyun-AI/MUDDFormer 獲取。
我們推出HealthGPT,這是一個強大的醫學大型視覺語言模型(Med-LVLM),它將醫學視覺理解與生成能力整合於一個統一的自我回歸框架中。我們的引導理念是逐步將異質的理解與生成知識適應於預訓練的大型語言模型(LLMs)。這通過一種新穎的異質低秩適應(H-LoRA)技術實現,該技術輔以定制的分層視覺感知方法和三階段學習策略。為了有效學習HealthGPT,我們設計了一個全面的醫學領域專用理解與生成數據集,名為VL-Health。實驗結果顯示,HealthGPT在醫學視覺統一任務中表現出卓越的性能和可擴展性。我們的項目可訪問於https://github.com/DCDmllm/HealthGPT。
長期以來,增強YOLO框架的網絡架構一直是關鍵任務,但主要集中在基於卷積神經網絡(CNN)的改進上,儘管注意力機制在建模能力上已被證明具有優越性。這是因為基於注意力的模型無法匹配基於CNN模型的速度。本文提出了一種以注意力為核心的YOLO框架,即YOLOv12,它在保持與先前基於CNN模型相當速度的同時,充分利用了注意力機制的性能優勢。YOLOv12在準確性上超越了所有流行的實時目標檢測器,並具有競爭性的速度。例如,YOLOv12-N在T4 GPU上實現了40.6%的mAP,推理延遲為1.64毫秒,在速度相當的情況下,分別比先進的YOLOv10-N / YOLOv11-N高出2.1%/1.2%的mAP。這一優勢也延伸至其他模型規模。YOLOv12還超越了改進DETR的端到端實時檢測器,如RT-DETR / RT-DETRv2:YOLOv12-S在運行速度上比RT-DETR-R18 / RT-DETRv2-R18快42%,僅使用36%的計算量和45%的參數。更多比較詳見圖1。
分佈式優化方法,如DiLoCo,已被證明在跨多個分佈式工作節點(例如數據中心)訓練超大模型方面具有顯著效果。這些方法將更新過程分為兩部分:內部優化階段,在此階段各工作節點獨立地對其本地數據執行多次優化步驟;以及外部優化步驟,在此步驟中同步內部更新。雖然此類方法相比標準的數據並行訓練大幅減少了通信需求,但在工作節點為數據中心的場景下,即便這些方法有限的通信需求,由於每次外部優化步驟所需的阻塞,仍可能導致顯著的性能下降。本文探討了通過重疊通信與計算來緩解這一問題的技術,使得外部優化步驟能夠完全與內部優化階段重疊。我們展示了一種名為“急切更新”的特定變體,在工作者間帶寬較低的環境下,其性能可與標準DiLoCo相媲美。
我們提出了一種名為「選項流」(Flow-of-Options, FoO)的新穎推理方法,旨在解決大型語言模型(LLMs)中的內在偏見。FoO使LLMs能夠在推理過程中系統性地探索多樣化的可能性,這一點通過一個基於FoO的自主解決機器學習任務(AutoML)的代理系統得到了展示。我們的框架在標準數據科學任務上超越了現有的最先進基準,取得了38.2%至69.2%的提升,在治療化學任務上則提升了37.4%至47.9%。每項任務的總操作成本低於1美元,使得我們的框架非常適合成本敏感的應用場景。除了分類和回歸,我們還展示了基於FoO的代理系統在強化學習和圖像生成等任務中的廣泛適用性。與當前最先進的AutoML代理系統相比,我們的框架展現了顯著的進步,這得益於FoO在通過壓縮且可解釋的表示來強制LLM解決方案多樣性方面的優勢,這些表示在與基於案例的推理結合時還支持長期記憶。
大型推理模型的快速發展,例如OpenAI-o3和DeepSeek-R1,已顯著提升了在複雜推理任務上相較於非推理大型語言模型(LLMs)的表現。然而,這些模型增強的能力,加上如DeepSeek-R1等模型的開源特性,引發了嚴重的安全顧慮,尤其是關於其可能被濫用的風險。在本研究中,我們對這些推理模型進行了全面的安全評估,利用既有的安全基準來檢驗其是否符合安全規範。此外,我們探討了它們對抗性攻擊(如越獄和提示注入)的易感性,以評估其在實際應用中的穩健性。通過多方面的分析,我們揭示了四項關鍵發現:(1)開源R1模型與o3-mini模型在安全基準和攻擊測試上存在顯著的安全差距,表明R1模型需要更多的安全改進。(2)蒸餾後的推理模型在安全性能上遜色於其經過安全對齊的基礎模型。(3)模型的推理能力越強,回答不安全問題時可能造成的危害越大。(4)R1模型的思考過程比其最終答案帶來更大的安全隱患。我們的研究為推理模型的安全影響提供了洞見,並強調了進一步提升R1模型安全性的必要性,以縮小這一差距。
基於大規模無標註數據集預訓練的基礎模型,已在自然語言處理和計算機視覺領域引發革命,展現出卓越的泛化能力,從而凸顯了預訓練的重要性。然而,在機器人領域的努力卻難以取得類似的成功,受限於需要昂貴的機器人標註數據或缺乏能有效模擬物理世界的表示方法。本文介紹了ARM4R,一種自迴歸機器人模型,它利用從人類視頻數據中學習到的低層次四維表示,以產生更好的預訓練機器人模型。具體而言,我們專注於利用通過時間序列上的單目深度估計將二維表示提升至三維空間而獲得的視頻中的三維點追蹤表示。這些四維表示在點與機器人狀態表示之間保持著共享的幾何結構,直至線性變換,從而實現了從人類視頻數據到低層次機器人控制的高效遷移學習。我們的實驗表明,ARM4R能夠有效地從人類視頻數據遷移至機器人領域,並在多種機器人環境和配置下的任務中持續提升性能。
LLM-as-a-Judge(大語言模型作為評判者)通過生成思維鏈(CoT)判斷,已成為一種廣泛採用的自動評估方法。然而,其可靠性因CoT推理無法捕捉全面且深入的細節而受到影響,往往導致不完整的結果。現有方法主要依賴多數投票或標準擴展,這不足以解決CoT的局限性。我們提出了基於群眾的比較評估方法,該方法引入額外的群眾回應與候選回應進行比較,從而揭示候選回應中更深層次和更全面的細節。這一過程有效引導LLM-as-a-Judge提供更為詳盡的CoT判斷。大量實驗表明,我們的方法提升了評估的可靠性,在五個基準測試中平均準確率提高了6.7%。此外,我們的方法生成了更高質量的CoT,有助於評判蒸餾,並在監督微調(SFT)的拒絕採樣(稱為群眾拒絕採樣)中表現出更優的性能,從而實現更高效的SFT。我們的分析證實,由我們生成的CoT更為全面且質量更高,且隨著推理規模的擴大,評估準確率也有所提升。
大型語言模型(LLMs)在多種任務中展現了顯著的成功,例如自然語言理解、文本摘要及機器翻譯。然而,其通用性質往往限制了它們在需要專業知識的特定領域應用中的效能,如醫療保健、化學或法律分析。為解決這一問題,研究者們探索了多種方法,通過整合領域特定知識來增強LLMs。在本調查中,我們全面概述了這些方法,將其分為四大關鍵策略:動態知識注入、靜態知識嵌入、模組化適配器及提示優化。每種策略均提供了獨特的機制,使LLMs具備領域專業知識,同時在靈活性、可擴展性與效率之間取得平衡。我們探討了這些方法如何使LLMs能夠處理專業任務,比較了它們的優缺點,評估了領域特定LLMs與通用LLMs的表現,並強調了這一新興領域的挑戰與機遇。對於有意深入此領域的讀者,我們還總結了常用的數據集與基準測試。為了讓研究者們及時了解最新研究,我們在以下網址維護了一個開源專案:https://github.com/abilliyb/Knowledge_Injection_Survey_Papers,致力於記錄專業LLM領域的研究進展。
嵌入模型在各種自然語言處理(NLP)應用中扮演著關鍵角色,用於表示和檢索信息。近年來,大型語言模型(LLMs)的進展進一步提升了嵌入模型的性能。儘管這些模型通常在通用數據集上進行基準測試,但實際應用需要針對特定領域的評估。在本研究中,我們引入了金融大規模文本嵌入基準(FinMTEB),這是專為金融領域設計的MTEB對應版本。FinMTEB包含64個金融領域特定的嵌入數據集,涵蓋7項任務,涉及中英文多種文本類型,如金融新聞文章、公司年報、ESG報告、監管文件及財報電話會議記錄。我們還開發了一款金融適應模型FinPersona-E5,採用基於角色的數據合成方法,以涵蓋多樣化的金融嵌入任務進行訓練。通過對包括FinPersona-E5在內的15種嵌入模型進行廣泛評估,我們揭示了三個關鍵發現:(1) 在通用基準上的表現與金融領域任務的相關性有限;(2) 領域適應模型普遍優於其通用版本;(3) 令人驚訝的是,在金融語義文本相似性(STS)任務中,簡單的詞袋(BoW)方法竟超越了複雜的密集嵌入技術,這凸顯了當前密集嵌入技術的局限性。我們的工作為金融NLP應用建立了一個堅實的評估框架,並為開發領域特定的嵌入模型提供了重要見解。
鈣鈦礦太陽能電池(PSCs)的快速發展導致了相關研究文獻的指數級增長,這使得該領域亟需高效的知識管理與推理系統。我們提出了一個全面的知識增強系統,專為PSCs設計,整合了三大核心組件。首先,我們構建了Perovskite-KG,這是一個基於1,517篇研究論文構建的領域特定知識圖譜,包含23,789個實體和22,272種關係。其次,我們創建了兩個互補的數據集:Perovskite-Chat,包含55,101對通過新穎的多智能體框架生成的高質量問答對;以及Perovskite-Reasoning,收錄了2,217個精心策劃的材料科學問題。第三,我們引入了兩個專用的大型語言模型:Perovskite-Chat-LLM,用於提供領域特定知識輔助;Perovskite-Reasoning-LLM,專注於科學推理任務。實驗結果表明,我們的系統在領域特定知識檢索和科學推理任務上均顯著優於現有模型,為研究人員在PSC研究中的文獻綜述、實驗設計及複雜問題解決提供了有效工具。
大型語言模型(LLMs)在多種文本生成任務中展現了卓越的能力。然而,LLMs在需要多步決策和環境反饋的問題上仍存在困難,例如在線購物、科學推理和數學問題解決。與純文本數據不同,收集大規模的決策數據具有挑戰性。此外,許多強大的LLMs僅能通過API訪問,這由於成本和複雜性而阻礙了它們在代理任務上的微調。為了解決LLM代理的局限性,我們提出了一個框架,能夠自動從環境中學習獎勵模型,而無需人工註釋。該模型可用於評估LLM代理的行動軌跡,並為任務規劃提供啟發式方法。具體來說,我們的方法涉及使用一個基於LLM的代理在環境中隨機導航,生成多樣化的行動軌跡。隨後,利用另一個LLM為每個軌跡分配任務意圖,並合成一個負面回應以及正確的回應。這些三元組(任務意圖、正面回應和負面回應)隨後被用作訓練數據,以優化能夠對行動軌跡進行評分的獎勵模型。我們框架的有效性和通用性通過在不同代理基準上的評估得到了展示。總之,我們提出的框架在增強LLM代理的決策能力方面代表了重大進展。通過自動化獎勵模型的學習,我們克服了數據稀缺和API限制的挑戰,可能徹底改變LLMs在複雜和互動環境中的應用。這項研究為開發能夠應對需要多步決策的廣泛現實世界問題的更複雜AI代理鋪平了道路。
儘管如XLM-R這類多語言模型在自然語言處理(NLP)領域推動了多語言能力的進步,它們在極低資源語言上的表現仍顯不足。這一問題因現代大型語言模型(如LLaMA和Qwen)所支持的語言數量遠少於XLM-R而更加嚴峻,導致許多世界語言的文本生成模型幾乎不存在。為應對這一挑戰,我們提出了一種新穎的框架,旨在將多語言編碼器適應於極低資源語言的文本生成任務。通過重複利用編碼器與解碼器之間的權重,我們的框架使模型能夠利用編碼器已學習的語義空間,從而實現低資源語言下的高效學習與有效泛化。將此框架應用於四種中國少數民族語言,我們推出了XLM-SWCM,並展示了其在多種下游任務上相較於更大模型的優越性能。
時間序列分析領域見證了從傳統自回歸模型、深度學習模型,到近期Transformer架構及大型語言模型(LLMs)的振奮人心發展。在此過程中,利用視覺模型進行時間序列分析的努力雖未間斷,但由於該領域對序列建模的集中研究,這些工作較少受到社群關注。然而,LLMs離散標記空間與連續時間序列之間的差異,以及多元時間序列中變量相關性顯式建模的挑戰,已將部分研究焦點轉向同樣取得顯著成功的大型視覺模型(LVMs)和視覺語言模型(VLMs)。為填補現有文獻的空白,本綜述探討了視覺模型在時間序列分析中相較於LLMs的優勢。它從雙重視角出發,提供了對現有方法的全面深入概述,並通過細緻的分類體系解答了關鍵研究問題,包括如何將時間序列編碼為圖像,以及如何針對不同任務對圖像化的時間序列進行建模。此外,我們還探討了這一框架中前後處理步驟面臨的挑戰,並展望了未來利用視覺模型進一步推進時間序列分析的方向。